BackUp Academy

Categories: Archiwizacja i kopia zapasowaDeduplikacja danychNowościPorady techniczne i analizy rynkoweSystemy storage SAN / RAID

Przystępne porównanie trzech rodzajów deduplikacji: plikowej, blokowej i bajtowej

Deduplikacja danych może się odbywać na trzech poziomach: pliku, bloku i bajtu. Każdy z poziomów definiuje inny rozmiar fragmentu danych, które później są sprawdzane przez system pod kontem wystąpienia duplikacji. Algorytm funkcji skrótu generuje unikalne identyfikatory dla każdego przeanalizowanego fragmentu danych. Identyfikatory są przechowywane w indeksie i wykorzystywane w procesie deduplikacji – duplikujące się fragmenty mają ten sam identyfikator funkcji skrótu.

Teoretycznie im bardziej dokładna analiza, tym większy współczynnik deduplikacji. W praktyce, wszystkie trzy poziomy mają swoje zalety. Deduplikacja na poziomie plików jest najłatwiejsza do wdrożenia. Nie jest ona obciążając dla serwera ponieważ wygenerowanie funkcji skrótu dla pliku jest relatywnie prosty. Jednakże, jest druga strona medalu: jeżeli w pliku zmieni się tylko jeden bajt, to identyfikator funkcji skrótu zostanie zmieniony. W wyniku czego oba pliki zostaną zapisane na serwerze.

Deduplikacja na poziomie blokowym jak sama nazwa wskazuje porównuje bloki. Każdy plik jest podzielony na bloki o tej samej lub różnej wielkości, a następnie wyliczane są funkcje skrótu, które potem są porównywane w celu wyłapania identycznych bloków. Jeżeli dokonamy drobnej zmiany w dużym pliku, wtedy system na serwerze zapisze tylko zmieniony fragment. Średnio deduplikacji plików umożliwia oszczędność miejsca na dysku 5:1, podczas gdy deduplikacja blokowa osiąg współczynnik 20:1.

Deduplikacja blokowa wymaga większej mocy obliczeniowej niż deduplikacja plikowa, ponieważ liczba identyfikatorów, która musi zostać wyliczona dla bloków jest zdecydowanie większa. Co za tym idzie ilość indeksów jaką należy przeanalizować też jest więcej. Deduplikacja blokowa o zmiennej wielkości bloku jest nawet bardziej obciążająca. Innym minusem tego typu deduplikacji jest to, że czasami następuje kolizja funkcji skrótu tzn. dla dwóch różnych bloków wyliczany jest identyczny identyfikator. Gdy kolizja ma miejsce, wtedy system nie zapisze nowych danych, ponieważ będzie myślał, że ten blok z danymi już jest zapisany na dysku.

Deduplikacja na poziomie bajtów nie wymaga większej ilości mocy obliczeniowej niż deduplikacja blokowa – w tym przypadku dane są porównywane w najbardziej prymitywny sposób – bajt po bajcie. Sprawia to, że analiza danych jest bardziej dokładna. Niedogodnością może być czas trwania deduplikacji bajtowej, który jest dość długi i dlatego z reguły jest stosowany deduplikacji typu post-process. Polega ona na tym, że na dysku najpierw zapisuje się wszystkie dane, a dopiero później są one analizowane przez system. Jest jeszcze deduplikacja typu In-line, wykorzystywana np. z deduplikacją blokową, wtedy bloki danych są analizowane w locie i po ich przetworzeniu na dysk zapisywane są tylko nowe bloki.

Jesteś ciekawy jaki rodzaj deduplikacji wykorzystuje Rsync, to zapraszamy do lektury:

https://www.backupacademy.pl/rsync-i-de-duplikacja-podczas-przesylania-kopii-zapasowych

Grzegorz Bielawski

Syn, mąż i ojciec dwójki dzieci. Zawsze mówi co myśli i później często żałuje. Posiada kota i rybki, ale woli psy. Obecnie pracownik firmy QNAP, za kołnierz nigdy nie wylewa :). Lubi polemizować, ale tylko na argumenty.

Next Magazynujemy na serwerach coraz więcej "Dużych danych" »

Previous « Przegląd systemów do wirtualizacji serwerów VMware, Citrix, VirtualBox i Hyper-V

QNAP wyróżniony nagrodą Produkt Roku 2026 MSP Today

Tajpej, Tajwan, czerwca 23, 2026 — Firma QNAP® Systems, Inc. ogłosiła dziś, że jej rozwiązanie…

7 dni ago

Synology prezentuje RS6426xs+ RackStation

10 czerwca 2026 — Synology ogłosiło dziś dostępność modelu RS6426xs+, urządzenia nowej generacji stworzonego z…

3 tygodnie ago

QNAP na targach COMPUTEX 2026: Ciągłość działania i innowacje w zakresie sztucznej inteligencji (AI)

Tajpej, Tajwan, czerwca 1, 2026 – QNAP® Systems, Inc. zaprasza na stoisko J1209a (TaiNEX 1)…

1 miesiąc ago

QNAP prezentuje QuTS hero h6.0 w wersji oficjalnej, oferujący wysoką dostępnoś, niezmienne migawki i wiele innych funkcji

Tajpej, Tajwan, maja 29, 2026 – QNAP® Systems, Inc., wiodący innowator w dziedzinie rozwiązań obliczeniowych,…

1 miesiąc ago

Synology ogłasza dostępność nowego FlashStation® FS200T

27 maja 2026 r. – Synology zaprezentowało model FS200T, kompaktowe, w pełni flashowe rozwiązanie pamięci masowej…

1 miesiąc ago

Nowości

QNAP wprowadza na rynek przełączniki QSW 2000 2,5 GbE/10 GbE zarządzalne w warstwie 2

Tajpej, Tajwan, maja 27, 2026 – QNAP® Systems, Inc., wiodący innowator w dziedzinie rozwiązań obliczeniowych,…

1 miesiąc ago

Przystępne porównanie trzech rodzajów deduplikacji: plikowej, blokowej i bajtowej

Recent Posts

QNAP wyróżniony nagrodą Produkt Roku 2026 MSP Today

Synology prezentuje RS6426xs+ RackStation

QNAP na targach COMPUTEX 2026: Ciągłość działania i innowacje w zakresie sztucznej inteligencji (AI)

QNAP prezentuje QuTS hero h6.0 w wersji oficjalnej, oferujący wysoką dostępnoś, niezmienne migawki i wiele innych funkcji

Synology ogłasza dostępność nowego FlashStation® FS200T

QNAP wprowadza na rynek przełączniki QSW 2000 2,5 GbE/10 GbE zarządzalne w warstwie 2

Archiwum

Przystępne porównanie trzech rodzajów deduplikacji: plikowej, blokowej i bajtowej

Related Post

Recent Posts

QNAP wyróżniony nagrodą Produkt Roku 2026 MSP Today

Synology prezentuje RS6426xs+ RackStation

QNAP na targach COMPUTEX 2026: Ciągłość działania i innowacje w zakresie sztucznej inteligencji (AI)

QNAP prezentuje QuTS hero h6.0 w wersji oficjalnej, oferujący wysoką dostępnoś, niezmienne migawki i wiele innych funkcji

Synology ogłasza dostępność nowego FlashStation® FS200T

QNAP wprowadza na rynek przełączniki QSW 2000 2,5 GbE/10 GbE zarządzalne w warstwie 2

Archiwum