Httrack Filter Links mit bestimmten Mustern

Ich versuche, mit httrack ein komplettes Webarchiv von archive.org herunterzuladen. Die Idee ist, nur die Archiv-Links (so viele wie möglich) herunterzuladen, aber nur die Links, die wirklich aus dem Archiv stammen, nicht von der aktuellen Website. Mit anderen Worten, ich möchte nur die Links herunterladen, die dieses Muster enthalten:

/web/[archive_timestamp]/[website]/*

Hier ist ein Beispiel

Hier ist ein Archivlink: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/

Um die benötigten Links herunterzuladen, verwende ich den folgenden Befehl:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*

Dies sollte bedeuten, alle Links zu filtern (alle deaktivieren) und nur diejenigen zu aktivieren, die / web / 20011209181356 / http://www.emag.ro/ enthalten.

Der Befehl lädt nur die Homepage herunter, also mache ich vermutlich etwas falsch.

Wenn jemand eine Idee hat, wie man dies erledigt (außer beim Erstellen eines eigenen Scrapers - versucht dies zu vermeiden, um Zeit zu sparen), auch mit einem anderen Tool, das ich über die Befehlszeile verwenden kann und das auch unter Windows funktioniert.

linux web mirroring httrack screen-scraping user1812076
quelle

Antworten:

Sie standen sich sehr nahe - Sie mussten lediglich den Domain-Namen wie folgt zu Ihrer Scan-Regel hinzufügen:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/*

Oder, um alle archivierten Versionen dieser Domain zu erhalten, können Sie Folgendes verwenden:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/*

Dann sollten Sie jedoch die Durchquerung der gesamten Domäne aktivieren, indem Sie diese Befehlszeilenoptionen verwenden (oder diese in der Benutzeroberfläche unter "Nur Experten" festlegen).

B ... kann die Verzeichnisstruktur nach oben und unten
durchlaufen, sich jedoch in derselben Hauptdomäne befinden

Siehe den Screenshot unten. Ist es das, was du erreichen wolltest?

Heruntergeladene Seiten

Brett
quelle