Jeff Bonwick, programista biorący udział w projekcie ZFS pisze na swoim blogu o włączeniu do systemu plików ZFS mechanizmu deduplikacji danych.
Działanie Mechanizmu polega na tym, że system ZFS opatruje każdy z bloków danych sumą kontrolną SHA256. Bloki danych o identycznej sumie kontrolnej są tylko raz zapisywane na dysku i przy użyciu licznika referencyjnego przyporządkowywane różnym plikom. przechowywaniu dużej liczby identycznych plików, np. obrazów maszyn wirtualnych z wieloma jednakowymi systemami gości. Proces ten wymaga minimalnego nakładu dodatkowej pracy administracyjnej, ponieważ ZFS i tak zabezpieczy każdy blok danych sumą kontrolną.
Jeff Bonwick stwierdził, że w przypadku SHA256 prawdopodobieństwo wystąpienia kolizji wartości hash wynikającej z przypisania różnym danym tej samej sumy kontrolnej jest 50-krotnie mniejsze niż pojawienia się nienaprawialnego błędu sprzętowego. Mimo to w przypadku wartości hash identycznych, system ZFS pozwala na samodzielne porównanie danych. W takiej sytuacji Bonwick zaleca użycie mniej zasobożernego algorytmu mieszającego.
Źródło: Jeff Bonwick's Blog
Skomentuj na forum