Deduplizierung auf Blockebene unter Linux

10

NetApp bietet ASIS (Block Level Deduplication). Kennen Sie ein Dateisystem (auch FUSE-basiert) unter Linux (oder OpenSolaris, * BSD), das dieselbe Funktionalität bietet?

(Ich bin nicht an falscher Deduplizierung wie Hardlinks interessiert).

linux netapp deduplication Benoît
quelle

6

Überprüfen Sie lessFS, das Dateideduplizierungs-Dateisystem, für Linux. Es ist noch in der Beta, aber Sie können es ausprobieren:

http://www.lessfs.com/

Grüße,

MV

MV.
quelle

Ausgezeichnet ! Das ist noch Beta, aber das ist definitiv etwas, mit dem man anfangen kann.

Benoît

7

Die Deduplizierung von OpenFSolaris erfolgt in ZFS, diese Funktionalität ist jedoch derzeit nicht verfügbar.

Es wurde im vergangenen Winter von Jeff Bonwick und Bill Moore als Prototyp entwickelt und sie arbeiten daran, es diesen Sommer zu integrieren. Es sollte also in der nächsten Version von OpenSolaris verfügbar sein oder früher, wenn Sie mit dem Entwicklungszweig herumspielen möchten.

3dinfluence
quelle

Siehe die Antwort von @ jlliagre - sie ist jetzt verfügbar.

James Moore

4

Für Personen, die mit der Datendeduplizierung möglicherweise nicht vertraut sind, ist dies eine Technik, bei der Daten auf Dateiebene (oder Blockebene, nehme ich an) analysiert werden und bei der identische Dateien / Blöcke im gesamten Dateisystem durch ein kleineres Token ersetzt werden. Dies hat den Effekt, dass die effektive Größe auf der Festplatte stark verkleinert wird. Es könnte als eine Form des Copy-on-Write angesehen werden . Lesen Sie die Wiki-Seite darauf.

Es gibt kein Dateisystem, von dem ich unter Linux gehört habe, um Dedup-, Datei- oder Block-Level auszuführen. Solch ein Biest wäre praktisch, obwohl es ziemlich prozessorintensiv ist.

Matt Simmons
quelle

4

Die Deduplizierung ist jetzt mit ZFS unter OpenSolaris verfügbar (Build 128a und neuere Versionen).

jlliagre
quelle

2

Ein Jahr später, aber hier ist eine Lösung für OpenBSD namens Epitome: http://www.peereboom.us/epitome/ . Vorausgesetzt, es ist eine liberale Lizenzierung, könnte es sehr gut in den Linux-Kernel gelangen.

quelle

1

Ich habe gerade ein Projekt gepostet, an dem ich gearbeitet habe und das Inline-Deduplizierung durchführt. Sie können es hier ansehen , wenn Sie interessiert sind. Es basiert auf Fuse und läuft unter Linux.

quelle

0

Ich kenne keine kostenlosen Implementierungen von Dedup für Linux. Ich habe einige Speicheranbieter gesehen, die empfohlen haben, ein HSM-System (Hierarchical Storage Management) mit einer VTL (Virtual Storage Library) zu verwenden, die dedupiert.

Sie können auch ein Occarina- ähnliches System in Betracht ziehen , das nicht transparent ist, aber bessere Ergebnisse liefert als Dedup.

James
quelle

0

Also ... keine Neuigkeiten über Deduplizierung unter Linux? opendedup mag eine Wahl sein, aber wenn ich die Java-Plattform gebe, auf der es läuft, möchte ich keine Kopfschmerzen bekommen. Ich habe es ja versucht, aber diese Java-Maschine und der Rest kommen mit meinen Anforderungen an Speicherreaktionszeiten und Sicherheit nicht sehr gut zurecht.

quelle

0

Die Deduplizierungsoption ist unter Linux auf den Dateisystemen BTRFS und ZFS verfügbar. BTRFS wird nativ unter Linux entwickelt und verfügt über ein Offline-Deduplizierungstool. Ich denke nicht 'offline', du musst fs umount. Offline bedeutet, dass aktiv geschriebene Daten nicht dedupliziert werden. Später führen Sie jedoch ein Tool für deduplizierte Gedanken aus, das jetzt gespeichert ist. Eigentlich ist das Tool wahrscheinlich in der Beta. Ein anderer Weg ist innerhalb von ZFS. Erhältlich als FUSE und nativ: http://zfsonlinux.org/ . Dies macht Online-Deduplizierung, leider verlangsamt dies das Schreiben, da alle im laufenden Betrieb berechnet werden müssen. Sie können dieses Verhalten online aktivieren und deaktivieren. Nachdem Sie die Deduplizierung deaktiviert haben, werden alle deduplizierten Daten weiterhin als dedupliziert gespeichert. Neue Schreibvorgänge werden als "dupliziert" gespeichert. Wenn Sie diese Daten in Zukunft deduplizieren möchten, müssen Sie die Deduplizierung aktivieren und alle "duplizierten" Dateien neu schreiben.

Siehe Dokument auf der Seite. Um das Schreiben und Lesen zu beschleunigen, können Sie dem Speicherpool schnellere Geräte hinzufügen (insbesondere SDD-Laufwerke oder möglicherweise schnelleres Flash-USB, achten Sie auf die Zuverlässigkeit der Geräte).

Znik
quelle

-2

DRBD macht genau das und macht es wirklich gut! Kann Master / Slave oder Master / Master machen :-)

Antoine Benkemoun
quelle

Könnten Sie mich bitte auf das Deduplizierungsdokument verweisen? Ich kann es nicht auf drbd.org/home/feature-list finden .

Benoît

Ich denke, Antoine meinte "Vervielfältigung", was nicht wirklich das ist, wonach Sie gesucht haben, ich weiß

Matt Simmons

Oh mein Gott, was ist der Unterschied zwischen Duplizierung und Deduplizierung?

Antoine Benkemoun

Ich habe eine kurze Erklärung in meinen Kommentar aufgenommen, aber im Wesentlichen werden die Daten durch Duplizierung an einen anderen Host gesendet, wobei durch Deduplizierung identische Informationen im gesamten Dateisystem eliminiert werden und der effektive freie Speicherplatz erhöht wird

Matt Simmons,

Deduplizierung auf Blockebene unter Linux

Antworten: