Ich möchte in der Lage sein, eine Datei verlustfrei zu komprimieren. Wenn die Originaldatei mit der Datei eines anderen Benutzers identisch ist, möchte ich, dass beide komprimierten Dateien übereinstimmen, auch wenn die Daten der Originaldatei unterschiedlich sind .
Ich möchte beim Komprimieren maximal 1 GB RAM verwenden. Ich neige zu einem asymmetrischen Algorithmus, weil die Dateien, die ich habe, ziemlich groß sind und die Komprimierung mit LZMA1 "ultra" in 7-zip auf einem P4-Computer mit 1 GB RAM und sonst nichts läuft mindestens eine Stunde dauert. Ich denke, 7-zip und FreeARC können für meine Zwecke verwendet werden. Ich habe versucht, die Befehle zu finden, die ich verwenden sollte, aber ich habe nicht viel Glück.
Bearbeiten : 100% identische Dateien sollten erstellt werden, auch wenn die Erstellungsdaten unterschiedlich sind. Dies sollte durch --nodates in Freearc und mit ???? in 7-zip. Ich suche nach einem entsprechenden Befehl für 7-zip und nach einer Möglichkeit, die Komprimierung auf mehreren Computern zu standardisieren.
quelle
Antworten:
Erstellen Sie einige identische Dateien:
gzip sie ...
Zeitstempelfeld als einzigen Unterschied beobachten:
Weitere Informationen zum Zeitstempel finden Sie im RFC
Jetzt können Sie entweder ein MD5 nehmen, das nach Byte 8 beginnt, diese vier Bytes in Ihren Dateien auf Null setzen und ihre Zeitstempel verlieren, oder den CRC16 aus diesen GZips extrahieren (Informationen zum Extrahieren finden Sie auch im RFC).
Oder Sie können ohne Zeitstempel speichern:
quelle
gzip
für Windows keine anderen Ports verfügbar sind, stellt Cygwin diese bereit.Keine direkte Antwort auf Ihre Frage, aber es könnte trotzdem hilfreich sein.
Vor langer Zeit (einem anderen Jahrtausend) hatte ich das gleiche Problem. Wir wollten wissen, ob komprimierte Dateien gleich sind, ohne sie zu dekomprimieren und zu vergleichen.
Unsere Lösung bestand darin, vor dem Komprimieren eine MD5-Summe der Datei abzurufen. Anschließend haben wir die Datei komprimiert und in
md5sum.zip
(.zip oder .tar.gz oder .rar oder .whatever) umbenannt . Auf diese Weise wussten wir, dass zwei Dateien mit demselben Namen (ohne Suffix) identisch waren.quelle
pristine-tar hat eine gehackte Version von gzip, die immer die gleichen Ergebnisse liefert (und eine andere für bzip2). Wählen Sie eine Algorithmusvariante und einen Zeitstempel und los geht's.
quelle
Hacken Sie in die Quellen von 7-zip. Wenn das Dateidatum gelesen wird, geben Sie einfach den Code ein, um das Datum auf den 01.01.1997 oder etwas anderes zu ändern - für alle Dateien behoben. Kompilieren Sie mit einem anderen Namen und verwenden Sie ihn.
quelle