Wie lade ich eine Website von der archive.org Wayback Machine herunter?

84

Ich möchte alle Dateien für eine bestimmte Website unter archive.org abrufen. Gründe könnten sein:

  • Der ursprüngliche Autor hat seine eigene Website nicht archiviert und sie ist jetzt offline. Ich möchte einen öffentlichen Cache daraus erstellen
  • Ich bin der ursprüngliche Autor einer Website und habe Inhalte verloren. Ich möchte es wiederherstellen
  • ...

Wie mache ich das ?

In Anbetracht dessen, dass die Wayback-Maschine von archive.org etwas ganz Besonderes ist: Webseiten-Links verweisen nicht auf das Archiv selbst, sondern auf eine Webseite, die möglicherweise nicht mehr vorhanden ist. JavaScript wird clientseitig verwendet, um die Links zu aktualisieren, aber ein Trick wie ein rekursiver Wget funktioniert nicht.

user36520
quelle
14
Ich bin auf dasselbe Problem gestoßen und habe einen Edelstein codiert. So zu installieren gem install wayback_machine_downloader. Führen Sie wayback_machine_downloader mit der Basis-URL der Website aus, die Sie als Parameter abrufen möchten: wayback_machine_downloader http://example.comWeitere Informationen: github.com/hartator/wayback_machine_downloader
Hartator
3
Eine Schritt-für-Schritt-Hilfe für Windows-Benutzer (für mich Win8.1 64-Bit), die neu in Ruby ist: 1) Ich habe rubyinstaller.org/downloads installiert und dann "rubyinstaller-2.2.3-x64" ausgeführt .exe "2) die zip-Datei github.com/hartator/wayback-machine-downloader/archive /... heruntergeladen 3) die zip-Datei in meinem Computer entpacken 4) im Windows-Startmenü nach" Eingabeaufforderung mit Ruby starten "suchen (muss sein) Fortsetzung)
Erb
3
5) folge den Anweisungen von github.com/hartator/wayback_machine_downloader (zB: kopiere und füge diesen "gem install wayback_machine_downloader" in die Eingabeaufforderung ein. Drücke Enter und das Programm wird installiert ... dann folge den "Usage" -Richtlinien). 6) Sobald Ihre Website erfasst wurde, finden Sie die Dateien unter C: \ Users \ YOURusername \ websites
Erb

Antworten:

64

Ich habe verschiedene Methoden zum Herunterladen einer Site ausprobiert und schließlich den Wayback-Downloader gefunden, der zuvor von Hartator erwähnt wurde (alle Credits gehen also bitte an ihn), aber ich habe seinen Kommentar zu der Frage einfach nicht bemerkt. Um Ihnen Zeit zu sparen, habe ich mich entschlossen, wayback_machine_downloader als separate Antwort hier hinzuzufügen.

Die Website unter http://www.archiveteam.org/index.php?title=Restoring listet die folgenden Möglichkeiten zum Herunterladen von archive.org auf:

  • Wayback Machine Downloader , kleines Tool in Ruby zum Herunterladen von Websites von der Wayback Machine. Kostenlos und Open Source. Meine Wahl!
  • Warrick - Die Hauptseite scheint nicht erreichbar zu sein.
  • Wayback Downloader , ein Dienst, der Ihre Site von der Wayback Machine herunterlädt und sogar ein Plugin für Wordpress hinzufügt. Nicht frei.
Comic sans
quelle
Ich schrieb auch einen "Wayback - Downloader", in PHP, die Ressourcen , das Herunterladen, Links Anpassung etc: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik
@ComicSans, Was ist ein Archive Team Grab auf der Seite, die Sie verlinkt haben ?
Pacerier
1
Oktober 2018 funktioniert der Wayback Machine Downloader immer noch.
Der Brasilianer
@Pacerier bedeutet (Sätze von) WARC-Dateien, die vom Archive Team erstellt wurden (und normalerweise in die Wayback-Maschine von Internet Archive eingespeist werden), siehe archive.org/details/archiveteam
Nemo
13

Dies kann mithilfe eines Bash-Shell-Skripts in Kombination mit erfolgenwget .

Die Idee ist, einige der URL-Funktionen des Wayback-Rechners zu verwenden:

  • http://web.archive.org/web/*/http://domain/*listet alle gespeicherten Seiten http://domain/rekursiv auf. Es kann verwendet werden, um einen Index der herunterzuladenden Seiten zu erstellen und Heuristiken zum Erkennen von Links auf Webseiten zu vermeiden. Für jeden Link gibt es auch das Datum der ersten Version und der letzten Version.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagelistet alle Versionen http://domain/pagefür das Jahr JJJJ auf. Auf dieser Seite finden Sie spezifische Links zu Versionen (mit genauem Zeitstempel).
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pageDie unveränderte Seite wird http://domain/pagezum angegebenen Zeitstempel zurückgegeben. Beachten Sie das ID_- Token.

Dies sind die Grundlagen, um ein Skript zu erstellen, mit dem Sie alles von einer bestimmten Domain herunterladen können.

user36520
quelle
7
Sie sollten stattdessen die API verwenden. Archive.org/help/wayback_api.php Die Wikipedia-Hilfeseiten richten sich an Redakteure und nicht an die breite Öffentlichkeit. Die Seite konzentriert sich also auf die grafische Oberfläche, die für diese Aufgabe sowohl überholt als auch unangemessen ist.
Nemo
Es wäre wahrscheinlich einfacher zu sagen, man nehme die URL (wie http://web.archive.org/web/19981202230410/http://www.google.com/) und füge id_sie am Ende der "Datumsangaben" hinzu. Dann würden Sie so etwas bekommen http://web.archive.org/web/19981202230410id_/http://www.google.com/.
Haykam
1
Ein Python-Skript finden Sie auch hier: gist.github.com/ingamedeo/…
Amedeo Baragiola
4

Es gibt ein speziell für diesen Zweck entwickeltes Tool, Warrick: https://code.google.com/p/warrick/

Es basiert auf dem Memento-Protokoll.

Nemo
quelle
3
Soweit ich es geschafft habe (im Mai 2017), stellt es nur wieder her, was archive.is enthält, und ignoriert so ziemlich alles, was bei archive.org zu finden ist. Es wird auch versucht, Dokumente und Bilder aus den Google / Yahoo-Caches abzurufen, was jedoch völlig fehlschlägt. Warrick wurde seit dem Herunterfahren von Google Code mehrmals auf GitHub geklont. Vielleicht gibt es dort einige bessere Versionen.
Gwyneth Llewelyn
0

Sie können dies leicht mit tun wget.

wget -rc --accept-regex '.*ROOT.*' START

Wo ROOTist die Root-URL der Website und STARTist die Start-URL. Zum Beispiel:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Beachten Sie, dass Sie den Umbruchrahmen des Webarchivs für die STARTURL umgehen sollten . In den meisten Browsern können Sie mit der rechten Maustaste auf die Seite klicken und "Nur diesen Frame anzeigen" auswählen.

jcoffland
quelle