Wie ich vermutet habe, basiert es auf dem VSS-Subsystem ( Quelle ), was auch erklärt, dass es asynchron ist. Die De-Dupe-Blöcke werden \System Volume Information\Dedup\ChunkStore\*
mit den Einstellungen in gespeichert \System Volume Information\Dedup\Settings\*
. Dies hat erhebliche Auswirkungen auf die Interaktion Ihrer Sicherungssoftware mit solchen Volumes. Dies wird im verlinkten Artikel erläutert (in Kürze: Ohne Deduplizierungsunterstützung haben Ihre Sicherungen dieselbe Größe wie immer, mit Deduplizierungsunterstützung sichern Sie nur der viel kleinere Deduplizierladen).
Was die verwendeten Methoden anbelangt, war das Beste, was ich finden konnte, ein von einem Microsoft-Forscher im Jahr 2011 veröffentlichtes Forschungspapier ( Quelle , Volltext ) auf der Usenix FAST11-Konferenz. Abschnitt 3.3 befasst sich mit der Deduplizierung im Primärspeicher . Es ist wahrscheinlich, dass diese Daten bei der Entwicklung der NTFS-Deduplizierungsfunktion verwendet wurden. Dieses Zitat wurde verwendet:
Der kanonische Algorithmus für inhaltsdefinierte Blöcke variabler Größe ist Rabin Fingerprints [25].
Es gibt eine Menge Daten in dem Papier, die durchgesehen werden müssen, aber die Komplexität des verwendeten Tool-Sets in Kombination mit den Funktionen, von denen wir bereits 2012 wissen, deuten stark darauf hin, dass die Argumentation in dem Papier zur Entwicklung der Funktionen verwendet wurde. Kann nicht sicher wissen, ohne MSDN-Artikel, aber dies ist so nah, wie wir wahrscheinlich vorerst bekommen.
Leistungsvergleiche mit ZFS müssen warten, bis die Benchmarker damit fertig sind.