Technische Details für die Server 2012-Deduplizierungsfunktion

12

Jetzt, da Windows Server 2012 über Deduplizierungsfunktionen für NTFS-Volumes verfügt , fällt es mir schwer, technische Details zu finden. Aus der TechNet-Dokumentation kann ich ableiten, dass die Deduplizierungsaktion selbst ein asynchroner Prozess ist - ähnlich wie beim SIS Groveler -, aber es gibt praktisch keine Details zur Implementierung (verwendete Algorithmen, benötigte Ressourcen, sogar Informationen zur Leistung) Überlegungen sind nichts anderes als ein Bündel von Faustregel-Empfehlungen.

Erkenntnisse und Hinweise werden sehr geschätzt. Ein Vergleich der ZFS-Deduplizierungseffizienz von Solaris für eine Reihe von Szenarien wäre wunderbar.

das-wabbit
quelle

Antworten:

9

Wie ich vermutet habe, basiert es auf dem VSS-Subsystem ( Quelle ), was auch erklärt, dass es asynchron ist. Die De-Dupe-Blöcke werden \System Volume Information\Dedup\ChunkStore\*mit den Einstellungen in gespeichert \System Volume Information\Dedup\Settings\*. Dies hat erhebliche Auswirkungen auf die Interaktion Ihrer Sicherungssoftware mit solchen Volumes. Dies wird im verlinkten Artikel erläutert (in Kürze: Ohne Deduplizierungsunterstützung haben Ihre Sicherungen dieselbe Größe wie immer, mit Deduplizierungsunterstützung sichern Sie nur der viel kleinere Deduplizierladen).

Was die verwendeten Methoden anbelangt, war das Beste, was ich finden konnte, ein von einem Microsoft-Forscher im Jahr 2011 veröffentlichtes Forschungspapier ( Quelle , Volltext ) auf der Usenix FAST11-Konferenz. Abschnitt 3.3 befasst sich mit der Deduplizierung im Primärspeicher . Es ist wahrscheinlich, dass diese Daten bei der Entwicklung der NTFS-Deduplizierungsfunktion verwendet wurden. Dieses Zitat wurde verwendet:

Der kanonische Algorithmus für inhaltsdefinierte Blöcke variabler Größe ist Rabin Fingerprints [25].

Es gibt eine Menge Daten in dem Papier, die durchgesehen werden müssen, aber die Komplexität des verwendeten Tool-Sets in Kombination mit den Funktionen, von denen wir bereits 2012 wissen, deuten stark darauf hin, dass die Argumentation in dem Papier zur Entwicklung der Funktionen verwendet wurde. Kann nicht sicher wissen, ohne MSDN-Artikel, aber dies ist so nah, wie wir wahrscheinlich vorerst bekommen.

Leistungsvergleiche mit ZFS müssen warten, bis die Benchmarker damit fertig sind.

sysadmin1138
quelle
2
Vielen Dank für den Hinweis, obwohl ich zugeben muss, dass ich mir für eine Funktion, die in Bezug auf Leistung, Datenintegrität und Speicherverbrauch genauso sinnvoll ist wie die Deduktion, etwas Dokumentationsähnlicheres erhofft habe. Nun, dann lass uns abwarten.
the-wabbit