Wie kann ich eine ganze Website herunterladen?

351

Wie kann ich alle Seiten von einer Website herunterladen?

Jede Plattform ist in Ordnung.

Joe
quelle
2
Sehen Sie sich serverfault.com/questions/45096/website-backup-and-download on Server Fault an.
Marko Carter
@tnorthcutt, ich bin auch überrascht. Wenn ich mich nicht furchtbar falsch erinnere, war meine Wget-Antwort die akzeptierte, und das sah nach einer festen Sache aus. Ich beschwere mich aber nicht - plötzlich gab mir die erneute Aufmerksamkeit mehr als die Wiederholung des Kopfgeldes. : P
Jonik
hast du IDM ausprobiert? superuser.com/questions/14403/… mein Beitrag ist vergraben. Was hat Ihnen in IDM gefehlt?
Lazer
5
@ Joe: Könnte helfen, wenn Sie Details über die fehlenden Funktionen geben würden ...
Ilari Kajaste
browse-offline.com kann den vollständigen Baum der Website herunterladen, sodass Sie ... ihn offline durchsuchen können
Menelaos Vergis

Antworten:

334

HTTRACK funktioniert wie ein Champion, um den Inhalt einer ganzen Site zu kopieren. Dieses Tool kann sogar die Teile erfassen, die benötigt werden, damit eine Website mit aktivem Code offline funktioniert. Ich bin erstaunt über das, was es offline replizieren kann.

Dieses Programm wird alles tun, was Sie dafür benötigen.

Fröhliches Jagen!

Axxmasterr
quelle
7
Ich benutze das seit Jahren - sehr zu empfehlen.
Umber Ferrule
4
Würde dies den tatsächlichen ASP-Code kopieren, der auf dem Server ausgeführt wird?
Taptronic
8
@Optimal Solutions: Nein, das ist nicht möglich. Sie benötigen dafür Zugriff auf die Server oder den Quellcode.
Sasha Chedygov
2
Nachdem ich sowohl httrack als auch wget für Websites mit Autorisierung ausprobiert habe, muss ich mich für wget entscheiden. In diesen Fällen konnte httrack nicht zum Laufen gebracht werden.
Leo
1
Was ist die Option für die Authentifizierung?
Vincent Mathew
272

Wget ist ein klassisches Befehlszeilenprogramm für diese Art von Aufgaben. Es wird mit den meisten Unix / Linux-Systemen geliefert und ist auch für Windows erhältlich . Auf einem Mac ist Homebrew der einfachste Weg, es zu installieren ( brew install wget).

Sie würden etwas tun wie:

wget -r --no-parent http://site.com/songs/

Weitere Informationen finden Sie im Wget-Handbuch und seinen Beispielen oder zB in den folgenden Abschnitten:

Jonik
quelle
12
Es gibt keine bessere Antwort als diese - wget kann alles: 3
Phoshi
6
+1 für das Einschließen von --no-parent. Verwenden Sie auf jeden Fall --mirror anstelle von -r. und Sie können -L / - einschließen, um Links zu anderen Servern nicht zu folgen.
Quack Quijote
2
Wie ich auch nach httrack.com gefragt habe - würde dieses cmd-Linientool den ASP- Code oder nur das Rendering des HTML erhalten? Ich muss das versuchen. Dies könnte für Entwickler etwas besorgniserregend sein, wenn dies der Fall ist ...
Taptronic
6
@optimal, die HTML-Ausgabe natürlich - es würde den Code nur bekommen, wenn der Server schlecht konfiguriert war
Jonik
2
Leider funktioniert es bei mir nicht - es gibt ein Problem mit Links zu CSS-Dateien, sie werden nicht in relative Dateien geändert, dh Sie können in Dateien Folgendes sehen: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> was lokal nicht gut funktioniert, es sei denn, es gibt ein waz, um Firefox zu täuschen, dass ein bestimmtes Verzeichnis eine Wurzel ist.
Gorn
148

Benutze wget:

wget -m -p -E -k www.example.com

Die Optionen erklärt:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.
user9437
quelle
8
+1 für die Erläuterung der vorgeschlagenen Optionen. (Obwohl ich dies nicht für --mirrorsehr selbsterklärend halte . Hier aus der Manpage: " Diese Option aktiviert die Rekursion und die Zeitstempelung, legt die unendliche Rekursionstiefe fest und behält die FTP-Verzeichnislisten bei. Sie entspricht derzeit -r -N- l inf
no
2
Wenn Sie nicht alles in einen Ordner mit dem Namen der Domäne herunterladen möchten, die Sie spiegeln möchten, erstellen Sie einen eigenen Ordner und verwenden Sie die Option -nH (wodurch der Host-Teil übersprungen wird).
Rafael Bugajewski
2
Was ist, wenn die Authentifizierung erforderlich ist?
Val
4
Ich habe versucht, mit Ihrem wget --mirror -p --html-extension --convert-links www.example.comund es hat gerade den Index heruntergeladen. Ich denke, Sie müssen -rdie gesamte Website herunterladen.
Eric Brotto
4
-w secondsWenn Sie Bedenken haben, eine Site aufgrund von Datenverkehr oder zu vielen Anfragen zu beenden , verwenden Sie (, um eine Anzahl von Sekunden zwischen den Anfragen zu warten, oder --limit-rate=amount, um die maximale Bandbreite für den Download
anzugeben
8

Sie sollten sich ScrapBook , eine Firefox-Erweiterung, ansehen . Es verfügt über einen detaillierten Erfassungsmodus .

Bildbeschreibung hier eingeben

Webjunkie
quelle
5
Ab Version 57 (Quantum) nicht mehr mit Firefox kompatibel.
Yay295
8

Der Internet Download Manager verfügt über ein Site Grabber-Dienstprogramm mit zahlreichen Optionen, mit denen Sie jede gewünschte Website ganz nach Ihren Wünschen herunterladen können.

  1. Sie können das Limit für die Größe der herunterzuladenden Seiten / Dateien festlegen

  2. Sie können die Anzahl der zu besuchenden Zweigstellen festlegen

  3. Sie können das Verhalten von Skripten / Popups / Duplikaten ändern

  4. Sie können eine Domain angeben. Nur unter dieser Domain werden alle Seiten / Dateien heruntergeladen, die die erforderlichen Einstellungen erfüllen

  5. Die Links können zum Durchsuchen in Offline-Links konvertiert werden

  6. Sie haben Vorlagen, mit denen Sie die obigen Einstellungen für Sie auswählen können

Bildbeschreibung hier eingeben

Die Software ist jedoch nicht kostenlos. Verwenden Sie die Testversion, um festzustellen, ob sie Ihren Anforderungen entspricht.

Lazer
quelle
7

itsucks - so heißt das Programm!

kmarsh
quelle
5

Ich werde auf die Online-Pufferung eingehen, die Browser verwenden ...

In der Regel verwenden die meisten Browser einen Browser-Cache, um die Dateien, die Sie von einer Website herunterladen, für eine Weile zu speichern, damit Sie nicht immer wieder statische Bilder und Inhalte herunterladen müssen. Dies kann unter Umständen die Dinge erheblich beschleunigen. Im Allgemeinen sind die meisten Browser-Caches auf eine feste Größe beschränkt. Wenn diese Grenze erreicht wird, werden die ältesten Dateien im Cache gelöscht.

ISPs verfügen in der Regel über Caching-Server, auf denen Kopien von Websites gespeichert sind, auf die häufig zugegriffen wird, z. B. ESPN und CNN. Dies erspart ihnen die Mühe, diese Sites jedes Mal aufzurufen, wenn jemand in ihrem Netzwerk dorthin geht. Dies kann zu erheblichen Einsparungen bei der Anzahl der duplizierten Anfragen an externe Websites beim Internetdienstanbieter führen.

Axxmasterr
quelle
5

Ich mag den Offline Explorer .
Es ist eine Shareware, aber sehr gut und einfach zu bedienen.

Eran
quelle
4

Ich habe das seit vielen Jahren nicht mehr gemacht, aber es gibt immer noch ein paar Versorgungsunternehmen. Vielleicht möchten Sie es mit Web Snake versuchen . Ich glaube, ich habe es vor Jahren benutzt. Ich erinnerte mich sofort an den Namen, als ich Ihre Frage las.

Ich stimme Stecy zu. Bitte hämmern Sie nicht ihre Website. Sehr schlecht.

Bobby Ortiz
quelle
3

Probieren Sie den BackStreet Browser aus .

Es ist ein kostenloser, leistungsfähiger Offline-Browser. Ein Hochgeschwindigkeits-Programm zum Herunterladen und Anzeigen von Websites mit mehreren Threads. Durch die gleichzeitige Eingabe mehrerer Serveranforderungen kann BackStreet Browser schnell die gesamte Website oder Teile einer Website herunterladen, einschließlich HTML, Grafiken, Java-Applets, Sound und anderer benutzerdefinierbarer Dateien. Alle Dateien auf Ihrer Festplatte werden entweder im nativen Format gespeichert. oder als komprimierte ZIP-Datei und offline anzeigen.

Bildbeschreibung hier eingeben

Joe
quelle
3

Teleport Pro ist eine weitere kostenlose Lösung, mit der alle Dateien von jedem Ziel kopiert werden können (es gibt auch eine kostenpflichtige Version, mit der Sie mehr Seiten mit Inhalten abrufen können).

Brezel
quelle
3

DownThemAll ist ein Firefox-Add-On, das den gesamten Inhalt (z. B. Audio- oder Videodateien) für eine bestimmte Webseite mit einem einzigen Klick herunterlädt. Dadurch wird nicht die gesamte Website heruntergeladen, aber möglicherweise wurde nach so etwas gesucht.

Will M
quelle
Es können nur Links (HTML) und Medien (Bilder) heruntergeladen werden.
Ain
3

Für Linux und OS X: Ich habe eine Grab-Site für die Archivierung ganzer Websites in WARC- Dateien geschrieben. Diese WARC-Dateien können durchsucht oder extrahiert werden. Mit grab-site können Sie steuern, welche URLs mit regulären Ausdrücken übersprungen werden sollen. Diese können geändert werden, wenn der Crawl ausgeführt wird. Es enthält auch eine Reihe von Standardeinstellungen zum Ignorieren von Junk-URLs.

Es gibt ein Web-Dashboard zum Überwachen von Crawls sowie zusätzliche Optionen zum Überspringen von Videoinhalten oder Antworten über eine bestimmte Größe.

Ivan Kozik
quelle
0

Der ehrwürdige FreeDownloadManager.org hat auch diese Funktion.

Free Download Manager hat es in zwei Formen in zwei Formen: Site Explorer und Site Spider :

Site Explorer Mit
Site Explorer können Sie die Ordnerstruktur einer Website anzeigen und auf einfache Weise die erforderlichen Dateien oder Ordner herunterladen.
HTML Spider Mit HTML Spider können
Sie ganze Webseiten oder sogar ganze Websites herunterladen. Das Tool kann so angepasst werden, dass nur Dateien mit den angegebenen Erweiterungen heruntergeladen werden.

Ich finde, dass der Site Explorer hilfreich ist, um festzustellen, welche Ordner eingeschlossen oder ausgeschlossen werden sollen, bevor Sie versuchen, die gesamte Site herunterzuladen. Dies gilt insbesondere dann, wenn sich auf der Site ein ganzes Forum versteckt, das Sie beispielsweise nicht herunterladen möchten.

David d C e Freitas
quelle
-3

Firefox kann das nativ (mindestens FF 42). Verwenden Sie einfach "Seite speichern"

Bildbeschreibung hier eingeben

user1032531
quelle
6
Falsch! In der Frage wird gefragt, wie eine gesamte Website gespeichert werden soll. Firefox kann das nicht.
2
Ihre Methode funktioniert nur, wenn es sich um eine einseitige Site handelt, die Site jedoch 699 Seiten umfasst. Wäre sehr anstrengend ...
Quidam
-4

Ich glaube, Google Chrome kann dies auf Desktop-Geräten tun. Rufen Sie einfach das Browser-Menü auf und klicken Sie auf Webseite speichern.

Beachten Sie auch, dass Dienste wie pocket die Website möglicherweise nicht wirklich speichern und daher anfällig für Links sind.

Beachten Sie außerdem, dass das Kopieren der Inhalte einer Website möglicherweise das Urheberrecht verletzt, sofern dies zutrifft.

jiggunjer
quelle
3
Eine Web - Seite in Ihrem Browser ist nur eine von vielen einer Web - Site .
Arjan
@Arjan Ich denke, das macht meine Option arbeitsintensiv. Ich glaube, es ist üblicher, dass Leute nur eine Seite speichern wollen, daher ist diese Antwort möglicherweise besser für diejenigen, die hierher kommen.
Jiggunjer