Administratorzy są zmuszeni w czasach rosnących zasobów danych, poważnie się zastanowić nad metodami kontroli i ochrony tych zasobów. Nierozerwalnie związany jest z tym proces tworzenia kopii zapasowych. Okresowe tworzenie kopii bezpieczeństwa produkuje zwielokrotnienie istniejących rekordów.

Problematyka deduplikacji danych należy, nie bez powodu, do tych aspektów przechowywania danych, które obecnie również dla małych i średnich przedsiębiorstw nabierają coraz większego znaczenia. Przegląd i eliminowanie nadmiaru zasobów danych prowadzi do oszczędności pamięci masowych, co niesie ze sobą możliwości ograniczenia kosztów. Według zapewnień przedstawicieli branży zajmującej się optymalizacją gromadzenia danych, oszczędności mogą sięgać 80% lub więcej, co dla MSP brzmi bardzo kusząco.

Decyzja o wprowadzaniu takiej technologii musi uwzględniać jednakże aspekty, które będą w optymalny sposób wspierać prowadzony plan zarządzania kopiami bezpieczeństwa. Jedynie spójny program zarządzania kopiami bezpieczeństwa może pomóc małym i średnim przedsiębiorstwom wykorzystać optymalnie reduplikację danych.

Kadra techniczna w departamentach IT stoi przed trudnym zadaniem znalezienia odpowiedniego i rentownego rozwiązania. W zestawieniu z dużymi przedsiębiorstwami, wyzwania stojące przed MSP w zarządzaniu zasobami pamięci masowej różnią się jedynie nieznacznie, z przewagą dla tych pierwszych w postaci znacznie wyższych środków w budżetach departamentów IT, czy odpowiedniej kadry.

Proces deduplikacji danych polega na zastąpieniu zdublowanych bloków danych przez odsyłacz (pointer) w głównej bazie danych podczas tworzenia backupu. Początkowa dominacja na rynku deduplikacji danych przez producentów urządzeń technicznych, została w ostatnim czasie przejęta przez oprogramowanie. Taki system zarządzania kryzysowego IT (Disaster-Recovery), w pełni zintegrowany z deduplikacją, oferuje firma CTERA.  W ten sposób otwiera się droga dostępu dla małych przedsiębiorstw do technologii, które do niedawna były używane wyłącznie przez korporacje. Pozwala to MSP zintegrować deduplikację danych w swoich systemach zarządzania i tworzenia kopii bezpieczeństwa oraz zoptymalizować procesy zabezpieczenia danych.

Typologia deduplikacji danych

Deduplikacja może być klasyfikowana zarówno ze względu na sprzęt i oprogramowanie użyte do jej wykonania, jak i ze względu na sam proces. Rozpoznawanie duplikatów danych może przebiegać u źródła lub w miejscu docelowym. Obydwie te metody mają swoje wady i zalety, z którymi warto się zapoznać przed wyborem odpowiedniego rozwiązania.

Za rozpoznawaniem duplikatów „u źródła” przemawia optymalizacja wykorzystania sieci, którymi przesyłane są dane, gdyż wielkości przesyłanych rekordów do tworzenia kopii bezpieczeństwa może zostać zawczasu znacznie zredukowana. Z drugiej strony metoda ta podnosi poziom użycia operacyjnych zasobów systemowych, a sam efekt deduplikacji może się ograniczyć wyłącznie do używanego systemu.

Znaczne obciążenie zasobów systemowych przez proces deduplikacji może zostać zmniejszone i przebiegać poza zasobami operacyjnymi, na bazach danych dostępnych w obrębie sieci, co przemawia za drugą metodą deduplikacji: „u celu”. Z drugiej strony metoda ta przenosi obciążenie na łącza sieciowe, przez które musi zostać przesłany cały wolumen danych podlegających analizie dopiero w miejscach docelowych.


Rozproszona deduplikacja „u celu”

Polega ona na wykorzystaniu przez użytkowników, w ramach implementowanych przez nich strategii zabezpieczenia danych, zalet obydwu wyżej wymienionych metod. Rozwiązania oferowane przez program zawierają opcję uruchomienia automatycznego czyszczenia danych (tzw. „repacking”) w przestrzeni docelowej – obojętnie czy administrator IT zdefiniował opcję metody „u źródła” czy „u celu”. Pomimo, że w czasie deduplikacji „u celu” sam proces czyszczenia nie wykonuje żadnego zadania, pełne efekty tego procesu widać podczas przeprowadzania deduplikacji „u źródła”. Faktycznie jest to już pierwszy krok, z rozłożonego w ten sposób na dwa etapy procesu deduplikacji, który w pełni wykorzystuje podstawowe zalety deduplikacji „u celu” również dla metody „u źródła”.
Wyżej omówione wady metody „u źródła”, która może ograniczyć analizę rekordów do używanej operacyjnie bazy danych, zostają zniwelowane przez proces czyszczenia. W ten sposób korzyści tej metody przenoszone są również na docelowe bazy danych. Repacking grupuje i indeksuje powielające się rekordy w źródłowej bazie danych.

Zintegrowanie procesów deduplikacji w rozwinięty system zabezpieczenia danych prowadzi do efektu synergii, który w tym przypadku polega na przeprowadzaniu procesu deduplikacji już w momencie tworzenia pełnych kopii bezpieczeństwa. Podczas tworzenia backupów omawiana technologia deduplikacji wyszukuje najpierw rekordy przyrostowe, które pojawiły się od ostatniego tworzenia kopii bezpieczeństwa. Rekordy te są następnie bez zmian wysyłane, a w bazie źródłowej pojawia się odwołanie do przestrzeni docelowej. Ostatecznie proces deduplikacji u źródła zostaje ograniczony do zadań na rekordach, które były edytowane. Dla administratorów oznacza to wymierne korzyści w postaci oszczędności czasu potrzebnego na tworzenie kopii bezpieczeństwa. Ostatecznie, tworzenie pełnych kopii bezpieczeństwa może przebiegać w krótkich cyklach w ramach systemu zarządzania bezpieczeństwem danych. Częstotliwość aktualizacji kopii zapasowych zasadniczo wpływa na możliwość odtwarzania baz danych, czy całych systemów.

Administratorzy MSP powinni kierować się następującymi przesłankami:

Deduplikacja danych przynosi wymierne korzyści w postaci oszczędności i optymalizacji procesów, pod warunkiem, że zastosowane technologie są w odpowiedni sposób zintegrowane w systemie zarządzania zabezpieczaniem danych jednostki. Jedynie w takim przypadku deduplikacja przynosi pożądane skutki. Oszczędność przestrzeni dyskowej powoduje, że inwestycje w sprzęt komputerowy mogą być z jednej strony odłożone w czasie, a z drugiej strony rekordy w większej ilości i przez dłuższy czas mogą być przechowywane na tradycyjnych nośnikach pamięci, co oczywiście przyspiesza proces odzyskiwania danych. Implementacja deduplikacji nie tylko zmniejsza pojemność zasobów danych do backupu, ale również przynosi korzyści w postaci zwiększonej wydajności, zwłaszcza dla systemów opartych na tradycyjnych nośnikach danych (jak dyski twarde) w stosunku do tych opartych na rozwiązaniach sieciowych.

Źródło: http://storagefocus.pl