Fast alle modernen Archivierer tun genau das. Der einzige Unterschied besteht darin, dass sie von einem "soliden" Archiv sprechen, da alle Dateien zu einem einzigen Stream zusammengefügt werden, bevor sie dem Komprimierungsalgorithmus zugeführt werden. Dies unterscheidet sich von der standardmäßigen Zip-Komprimierung, bei der jede Datei einzeln komprimiert und jede komprimierte Datei zum Archiv hinzugefügt wird.
7-zip bewirkt von Natur aus eine effektive Deduplizierung. 7-Zip sucht zum Beispiel nach Dateien, sortiert sie nach ähnlichen Dateitypen und Dateinamen, und so werden zwei Dateien desselben Typs und Daten nebeneinander im Stream platziert, der zu den Kompressoralgorithmen geleitet wird. Der Kompressor wird dann eine Menge Daten sehen, die er in letzter Zeit gesehen hat, und diese beiden Dateien werden eine große Steigerung der Komprimierungseffizienz erfahren, verglichen mit dem Komprimieren der Dateien nacheinander.
Linux hat seit langem ein ähnliches Verhalten durch die Verbreitung des ".tgz" -Formats (oder ".tar.gz", um die vollständige Form zu verwenden) festgestellt, da das tar einfach alle Dateien zu einem einzigen Stream zusammenführt (wenn auch ohne Dateien sortieren und gruppieren) und dann mit gzip komprimieren. Was dies vermisst, ist die Sortierung, die 7-zip vornimmt, was zwar die Effizienz etwas verringert, aber immer noch viel besser ist, als einfach eine Menge einzeln komprimierter Dateien auf die Art und Weise zu blobben , die Zip macht.
.tar.gz
Komprimiert gzip nicht nur relativ kleine Blöcke (wie 900 KB) gleichzeitig völlig unabhängig voneinander und kann somit nicht zwei große, aber identische Dateien (z. B. ein paar 4 MB große Bilder) deduplizieren?