Ich möchte alle Dateien für eine bestimmte Website unter archive.org abrufen. Gründe könnten sein:
- Der ursprüngliche Autor hat seine eigene Website nicht archiviert und sie ist jetzt offline. Ich möchte einen öffentlichen Cache daraus erstellen
- Ich bin der ursprüngliche Autor einer Website und habe Inhalte verloren. Ich möchte es wiederherstellen
- ...
Wie mache ich das ?
In Anbetracht dessen, dass die Wayback-Maschine von archive.org etwas ganz Besonderes ist: Webseiten-Links verweisen nicht auf das Archiv selbst, sondern auf eine Webseite, die möglicherweise nicht mehr vorhanden ist. JavaScript wird clientseitig verwendet, um die Links zu aktualisieren, aber ein Trick wie ein rekursiver Wget funktioniert nicht.
gem install wayback_machine_downloader
. Führen Sie wayback_machine_downloader mit der Basis-URL der Website aus, die Sie als Parameter abrufen möchten:wayback_machine_downloader http://example.com
Weitere Informationen: github.com/hartator/wayback_machine_downloaderAntworten:
Ich habe verschiedene Methoden zum Herunterladen einer Site ausprobiert und schließlich den Wayback-Downloader gefunden, der zuvor von Hartator erwähnt wurde (alle Credits gehen also bitte an ihn), aber ich habe seinen Kommentar zu der Frage einfach nicht bemerkt. Um Ihnen Zeit zu sparen, habe ich mich entschlossen, wayback_machine_downloader als separate Antwort hier hinzuzufügen.
Die Website unter http://www.archiveteam.org/index.php?title=Restoring listet die folgenden Möglichkeiten zum Herunterladen von archive.org auf:
quelle
Dies kann mithilfe eines Bash-Shell-Skripts in Kombination mit erfolgen
wget
.Die Idee ist, einige der URL-Funktionen des Wayback-Rechners zu verwenden:
http://web.archive.org/web/*/http://domain/*
listet alle gespeicherten Seitenhttp://domain/
rekursiv auf. Es kann verwendet werden, um einen Index der herunterzuladenden Seiten zu erstellen und Heuristiken zum Erkennen von Links auf Webseiten zu vermeiden. Für jeden Link gibt es auch das Datum der ersten Version und der letzten Version.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
listet alle Versionenhttp://domain/page
für das Jahr JJJJ auf. Auf dieser Seite finden Sie spezifische Links zu Versionen (mit genauem Zeitstempel).http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
Die unveränderte Seite wirdhttp://domain/page
zum angegebenen Zeitstempel zurückgegeben. Beachten Sie das ID_- Token.Dies sind die Grundlagen, um ein Skript zu erstellen, mit dem Sie alles von einer bestimmten Domain herunterladen können.
quelle
http://web.archive.org/web/19981202230410/http://www.google.com/
) und fügeid_
sie am Ende der "Datumsangaben" hinzu. Dann würden Sie so etwas bekommenhttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Es gibt ein speziell für diesen Zweck entwickeltes Tool, Warrick: https://code.google.com/p/warrick/
Es basiert auf dem Memento-Protokoll.
quelle
Sie können dies leicht mit tun
wget
.Wo
ROOT
ist die Root-URL der Website undSTART
ist die Start-URL. Zum Beispiel:Beachten Sie, dass Sie den Umbruchrahmen des Webarchivs für die
START
URL umgehen sollten . In den meisten Browsern können Sie mit der rechten Maustaste auf die Seite klicken und "Nur diesen Frame anzeigen" auswählen.quelle