Ich versuche, mit httrack ein komplettes Webarchiv von archive.org herunterzuladen. Die Idee ist, nur die Archiv-Links (so viele wie möglich) herunterzuladen, aber nur die Links, die wirklich aus dem Archiv stammen, nicht von der aktuellen Website. Mit anderen Worten, ich möchte nur die Links herunterladen, die dieses Muster enthalten:
/web/[archive_timestamp]/[website]/*
Hier ist ein Beispiel
Hier ist ein Archivlink: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/
Um die benötigten Links herunterzuladen, verwende ich den folgenden Befehl:
httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*
Dies sollte bedeuten, alle Links zu filtern (alle deaktivieren) und nur diejenigen zu aktivieren, die / web / 20011209181356 / http://www.emag.ro/ enthalten.
Der Befehl lädt nur die Homepage herunter, also mache ich vermutlich etwas falsch.
Wenn jemand eine Idee hat, wie man dies erledigt (außer beim Erstellen eines eigenen Scrapers - versucht dies zu vermeiden, um Zeit zu sparen), auch mit einem anderen Tool, das ich über die Befehlszeile verwenden kann und das auch unter Windows funktioniert.