Heute habe ich ein Skript geschrieben, das über einen Ordner mit 2,5 Millionen Dateien iteriert. Das erste Problem war, dass die Iteration sehr lange dauerte, da der Verzeichnisindex zuerst aufgebaut werden musste. Nach dem ersten Aufbau sollte es neben dem Ordner gespeichert werden, damit weitere Iterationen schneller ablaufen.

Dieses Verhalten könnte folgendermaßen aussehen:

  • Während des Aufbaus hing das Skript nur.
  • Wenn Sie das Skript gestoppt und neu gestartet haben, wurde die Speichergröße sofort auf den Wert des vorherigen Laufs gesetzt.
  • Nachdem der gesamte Index erstellt wurde, konnte das Verzeichnis auch nach einem Neustart in Sekunden und nicht in Stunden iteriert werden.

Weitere Informationen zum Directory Index Tree finden Sie hier: http://wiki.sleuthkit.org/index.php?title=NTFS

Jetzt gibt es jedoch ein Problem: Nachdem ich mehrere Dateien gelöscht habe, beginnt die Indizierung erneut. Der Indexbaum wird also irgendwie nicht reorganisiert, sondern gelöscht und neu aufgebaut. Gibt es eine zeitliche Begrenzung nach der Ungültigmachung des Baums oder ist es nur die Größe des Baums?

Gibt es eine Möglichkeit, den Zugriff auf große Ordnerstrukturen zu beschleunigen, indem der Baum immer im Dateisystem verbleibt?

reox
quelle