Problemem większości współczesnych firm jest swoista klęska urodzaju – nowoczesna organizacja dysponująca odpowiednim sprzętem i oprogramowaniem generuje podczas swojego funkcjonowania ogromne ilości danych. Danych, które na pierwszy rzut oka mogłyby się wydawać niepotrzebne, ale które tak naprawdę po odpowiednim zorganizowaniu i przeanalizowaniu mogą dostarczyć bezcennych informacji o firmie oraz jej środowisku (np. branży). Warto więc zastanowić się, jak zapanować nad wszystkimi informacjami, jak je chronić i jak optymalnie wykorzystać w codziennej pracy.

Dane wielkoskalowe (big data), jako koncepcja, istnieją od wielu lat. Dawniej były one stosowane wyłącznie w projektach naukowych i badaniach, w których szybko generowano ogromne ilości danych. Termin służy do opisywania ogromnych składów danych — zarówno ustrukturyzowanych, jak i tych bez konkretnej struktury — których rozmiary utrudniają zbieranie, przechowywanie, analizowanie, udostępnianie i powielanie informacji (na przykład w celu utworzenia kopii zapasowych).

oferta_wykres

Systemy obsługujące dane wielkoskalowe są często wyposażone w setki, a nawet tysiące procesorów, a te są podłączone do szerokopasmowej infrastruktury sieciowej oraz pojemnych macierzy magazynowych złożonych z wielu dysków twardych (takich jak seria WD Re czy Se — zaprojektowanych do użytku w przedsiębiorstwach), skalowalnych systemów komputerowych i środowisk chmur. W dzisiejszym świecie dane wielkoskalowe powstają na całym świecie i są generowane przez wiele źródeł. Duże projekty badawcze, takie jak Wielki Zderzacz Hadronów, generują i obsługują petabajty (PB) danych (ok. 15 PB rocznie), a serwisy społecznościowe, na przykład Facebook, obsługują bazy danych zawierające ponad 50 miliardów zdjęć swoich użytkowników.

Mimo problematyczności danych wieloskalowych, mają one ogromny, ekscytujący potencjał – w zależności od typu projektu, możemy przeanalizować dane pod konkretnym kątem, uzyskując w ten sposób jednoznaczne wyniki. Wyobraźmy sobie sklep internetowy, który ma dostęp do wielkoskalowych danych na temat własnej działalności. Analizując te dane, firma może na przykład rozpoznać powstające trendy, zachowania klientów, analizować ceny oraz tworzyć skuteczniejsze reklamy. Jedną z takich firm jest Walmart, który ostatnio wykorzystuje dane wielkoskalowe w celu lepszego poznania klientów i zaoferowania im odpowiednich produktów poprzez aplikacje dla systemów iOS/Android.

W przeciwieństwie do tradycyjnych, ustrukturyzowanych informacji zawartych w relacyjnych bazach danych, dane wielkoskalowe często są mniej uporządkowane. To dlatego, że tradycyjna baza danych może obsłużyć ograniczoną liczbę typów danych, takich jak liczby lub daty. Natomiast dane wielkoskalowe mogą obejmować wiele zestawów danych, takich jak tekst, materiały wideo, dźwięk, dane pobrane z czujników, pliki dziennika itp. Analiza wszystkich danych w swoim wzajemnym kontekście pozwala na uzyskanie wartościowych informacji niezbędnych instytucjom do pracy.

Big data w chmurze (prywatnej)

Istnieją różne modele systemów chmur: publiczne, społecznościowe, hybrydowe i prywatne. Prywatna chmura to system, który zwykle jest użytkowany przez jeden podmiot biznesowy i może być zarządzany przez dział wewnętrzny lub firmę zewnętrzną, natomiast fizyczny sprzęt oraz zainstalowane na nim oprogramowanie mogą znajdować się w pomieszczeniach firmy lub w zewnętrznej lokalizacji. W porównaniu z innymi modelami chmur, ten model wymaga dość pokaźnej inwestycji czasu, pieniędzy i personelu. Największą zaletą tego modelu jest to, że firma może mieć pewność, że jej dane pozostaną prywatne (usługodawca może uzyskać dostęp do danych przechowywanych w chmurach publicznych), więc zapewnia on najwięcej korzyści firmom, dla których prywatność danych jest priorytetem.

Ponieważ obsługa danych pochodzących z wielu źródeł staje się coraz trudniejsza, a coraz więcej firm zajmuje się złożonymi symulacjami produkującymi bardzo dokładne wyniki, prywatna chmura może być doskonałym rozwiązaniem pracy z danymi wielkoskalowymi. Aby ten system był skuteczny, prywatna chmura powinna być skonfigurowana do obsługi agregacji danych, zapewniać dostęp do większej pojemności na życzenie, oferować możliwość przypisywania zasobów i obsługiwać funkcje rejestracji rekordów.

Instytucje zainteresowane prywatną chmurą muszą ponieść spory koszt inwestycyjny na samym początku projektu. Forma infrastruktury systemu chmury prywatnej zależy od potrzeb danej instytucji. Na przykład — w przypadku instytucji obsługujących własne centrum danych budowa systemu chmury może wymagać jedynie rozbudowy istniejących urządzeń. Systemy prywatnej chmury wymagają stworzenia rozbudowanej struktury sieciowej w siedzibie firmy, a także szerokopasmowego połączenia z Internetem (w celu umożliwienia zdalnego dostępu itp.), a także zainstalowania pamięci masowej na bazy danych, serwerów aplikacji, zapór ogniowych, węzłów sterowania i oprogramowania do obsługi całej platformy chmury.

right_drive

Prywatna chmura zapewnia większą prywatność danych, ponieważ pracuje ona zwykle na infrastrukturze zainstalowanej w firmie. Jeśli prywatna chmura jest obsługiwana przez firmę zewnętrzną lub znajduje się poza siedzibą firmy, należy wdrożyć procesy gwarantujące prywatność danych. Firma mogłaby na przykład zaszyfrować wszystkie dane, a następnie wydawać pracownikom hasła umożliwiające dostęp do firmowych danych zapisanych w prywatnej chmurze. Bezpieczeństwo w chmurach prywatnych jest bardzo ważne ze względu na charakter danych przechowywanych w takim systemie. Prywatne chmury należące np. do banków cieszą się większym zainteresowaniem hakerów niż chmury publiczne, ponieważ te ostatnie zwykle zawierają jedynie zdjęcia lub inne nieprzydatne hakerowi informacje. Jeśli zaś chodzi o bezpieczeństwo, instytucja powinna zawsze wykonać proces oceny ryzyka, określić, do kogo należą dane oraz sposób ich klasyfikacji, wykonać procesy kontroli i monitorowania, a także przygotować pełnoprawny plan reagowania na potencjalne naruszenia bezpieczeństwa. Prywatna chmura powinna zawsze znajdować się za silną zaporą, a zdalne komputery klienckie powinny zostać odpowiednio zabezpieczone, zanim nawiążą połączenie z chmurą.

Oczywiście, do stworzenia takiego systemu niezbędny będzie odpowiedni sprzęt – w firmach świetnie sprawdzą się np. urządzenia NAS (Network Attache Storage, czyli innymi słowy dyski sieciowe), czy serwery danych wyposażone w odpowiednie dyski HDD. WD oferuje serie produktów dedykowanych do takich zastosowań – chodzi tu np. o dyski z rodziny WD SE i WD RED (zoptymalizowane pod kątem pracy 24/7/365, a także kompletne rozwiązania NAS dla firm WD Sentinel).

Backup danych to podstawa

Oczywiście w sytuacji, gdy najcenniejszym dobrem firmy stają się dane – przechowywane i wykorzystywane w najróżniejszych systemach i urządzeniach – niezbędne jest również zapewnienie odpowiednio wysokiego poziomu ich bezpieczeństwa. Czyli, innymi słowy, zaplanowanie, wdrożenie i bezwzględne stosowanie się do polityki wykonywania backupu oraz kopii zapasowej krytycznych informacji.

Planując taką operację, niezbędne jest zdobycie odpowiedzi na pytania:

– Przy pomocy jakich technologii zabezpieczyć na wypadek awarii dane, zalety i wady środowiska fizycznego i wirtualnego?
– W jaki sposób najefektywniej tworzyć kopie zapasowych?
– Jak najefektywniej odtworzyć dane po awarii?

Oczywiście, odpowiedzi na te pytania będą się różnić w zależności od tego, jakie dane wykorzystuje firma, jak zbudowana jest jej infrastruktura informatyczna, i wielu innych. Generalnie, istnieje wiele narzędzi do tworzenia i odtwarzania kopii zapasowych danych. W przeszłości firmy korzystały głównie z systemów kopii zapasowych wykorzystujących taśmy magnetooptyczne. Są one w użyciu po dziś dzień, ale szybko tracą na popularności (wg Santa Clara Consulting Group, między latami 2011 i 2012 liczba takich rozwiązań spadła o 30%), ponieważ organizacje migrują na bardziej elastyczne systemy plików, które zapewniają nadmiarowość danych, często eliminując potrzebę sięgania do kopii zapasowej.

Istnieją również systemy plików zaprojektowane specjalne dla centrów danych i chmur, takie jak otwarty system XtreemFS. Zapewnia on szereg korzyści: może on pracować w wielu rozproszonych centrach danych połączonych przez Internet, co zwiększa odporność na awarie występujące na dużych obszarach. Systemy plików tego rodzaju umożliwiają replikowanie danych na wszystkich systemach podłączonych do sieci. Jeśli plik w takim systemie ulegnie uszkodzeniu lub stanie się niedostępny wskutek awarii sieci lub sprzętu (bądź z innych powodów), system plików automatycznie pobierze ten plik z innego punktu magazynowego w sieci. Ponieważ w obrębie sieci istnieje wiele kopii tych samych informacji, taki system plików zapewnia nadmiarowość w czasie rzeczywistym, tym samym sprawiając, że stosowanie procesów tworzenia i odzyskiwania kopii zapasowych staje się zbędne. Takie systemy plików zapewniają też inne korzyści, takie jak zmniejszony czas oczekiwania na informacje, ponieważ istnieje wiele ścieżek dostępu do danych, a użytkownik zawsze korzysta z tej najszybszej.

Warto zainteresować się np. produktami WD Arkeia, oferującymi szeroki wachlarz zaawansowanych rozwiązań sprzętowych i software’owych, dopasowanych również do specyfiki nowoczesnych systemów big data i chmurowych. W każdym jednak wypadku wybór danego rozwiązania poprzedzony powinien być drobiazgową analizą potrzeb danego przedsiębiorstwa – bo tylko to pozwoli na idealne dobranie backupu do jej potrzeb.