Internet i Komputery: Czym jest deduplikacja?

13 listopada 2014

Czym jest deduplikacja?

Czym jest Deduplikacja?

Autor: Dario

Deduplikacja danych jest używana by zmniejszyć ilość danych – zarówno do przechowywania, jak i do przesyłu przez sieć – od lat dziewięćdziesiątych ubiegłego wieku.

Deduplikacja danych jest rodzajem „globalnej kompresji” wyszukującej podobieństwa w backupowanych zbiorach. Z uwagi na fakt, iż dana zawartość występująca w zbiorze musi być zapisana tylko raz, może ona zostać drastycznie skompresowana, co znacząco zmniejsza zapotrzebowanie na pojemność dyskową.

Należy zwrócić uwagę, iż „globalna kompresja” jest procesem odmiennym od „lokalnej kompresji”, polegającej na zmniejszaniu rozmiaru pliku, której przykładowym efektem jest plik o rozszerzeniu JPEG. Istnieją dwa podstawowe powody, dla których deduplikacja znajduje zastosowanie w backupie.

Po pierwsze, na wielu komputerach w sieci firmowej często znajdują się takie same bądź podobne dane: dokumenty, pliki systemowe, czy bazy danych.

Po drugie, każdy kolejny backup danej maszyny zawiera dane, które tylko częściowo różnią się od tych uprzednio zbackupowanych.
Schemat działania obydwóch rodzajów kompresji jest podobny. Rozpoznają one powtarzalne sekwencje bajtów (zwane tez blokami) w plikach. Zamiast zapisywania powtarzalnych sekwencji wielokrotnie, druga i każda kolejna identyczna sekwencja jest zapisywana tylko w formie referencji do sekwencji uprzednio zapisanej. Deduplikacja danych jest możliwa odkąd w latach osiemdziesiątych ubiegłego wieku wynaleziono hash. Ten ostatni jest rodzajem odcisku palca dla pliku, bądź – jak w przypadku kompresji – sekwencji bajtów wewnątrz pliku. Jeśli dwa „odciski” są identyczne, odpowiadające im sekwencje są również traktowane jako jednakowe z prawdopodobieństwem zapewniającym bezpieczny margines błędu.

Przewaga kompresji globalnej nad lokalną wynika przede wszystkim z nieporównywalnie większego zakresu operacji. Im większy zasięg działania deduplikacji, tym lepszy ogólny współczynnik kompresji. Deduplikacja zawartości jednego serwera nigdy nie osiągnie współczynnika kompresji osiąganego przez deduplikację kilku serwerów. Innymi słowy, podobieństwo danych pośród wielu stacji roboczych czy serwerów powoduje wzrost współczynnika kompresji wraz ze wzrostem ilości danych
z różnych lokalizacji, na których odbywa się deduplikacja.

SERVCOMP - Profesjonane Oprogramowanie Antywirusowe

Licencjonowane artykuły dostarcza Artelis.pl.

2 komentarze:

Eliza18:29
Zaciekawiły mnie te informacje
OdpowiedzUsuń
Odpowiedzi
Szymon11:30
Wiele tutaj ciekawych treści
OdpowiedzUsuń
Odpowiedzi

Dodaj komentarz