@tnorthcutt, ich bin auch überrascht. Wenn ich mich nicht furchtbar falsch erinnere, war meine Wget-Antwort die akzeptierte, und das sah nach einer festen Sache aus. Ich beschwere mich aber nicht - plötzlich gab mir die erneute Aufmerksamkeit mehr als die Wiederholung des Kopfgeldes. : P
@ Joe: Könnte helfen, wenn Sie Details über die fehlenden Funktionen geben würden ...
Ilari Kajaste
browse-offline.com kann den vollständigen Baum der Website herunterladen, sodass Sie ... ihn offline durchsuchen können
Menelaos Vergis
Antworten:
334
HTTRACK funktioniert wie ein Champion, um den Inhalt einer ganzen Site zu kopieren. Dieses Tool kann sogar die Teile erfassen, die benötigt werden, damit eine Website mit aktivem Code offline funktioniert. Ich bin erstaunt über das, was es offline replizieren kann.
Dieses Programm wird alles tun, was Sie dafür benötigen.
Würde dies den tatsächlichen ASP-Code kopieren, der auf dem Server ausgeführt wird?
Taptronic
8
@Optimal Solutions: Nein, das ist nicht möglich. Sie benötigen dafür Zugriff auf die Server oder den Quellcode.
Sasha Chedygov
2
Nachdem ich sowohl httrack als auch wget für Websites mit Autorisierung ausprobiert habe, muss ich mich für wget entscheiden. In diesen Fällen konnte httrack nicht zum Laufen gebracht werden.
Leo
1
Was ist die Option für die Authentifizierung?
Vincent Mathew
272
Wget ist ein klassisches Befehlszeilenprogramm für diese Art von Aufgaben. Es wird mit den meisten Unix / Linux-Systemen geliefert und ist auch für Windows erhältlich . Auf einem Mac ist Homebrew der einfachste Weg, es zu installieren ( brew install wget).
Sie würden etwas tun wie:
wget -r --no-parent http://site.com/songs/
Weitere Informationen finden Sie im Wget-Handbuch und seinen Beispielen oder zB in den folgenden Abschnitten:
Es gibt keine bessere Antwort als diese - wget kann alles: 3
Phoshi
6
+1 für das Einschließen von --no-parent. Verwenden Sie auf jeden Fall --mirror anstelle von -r. und Sie können -L / - einschließen, um Links zu anderen Servern nicht zu folgen.
Quack Quijote
2
Wie ich auch nach httrack.com gefragt habe - würde dieses cmd-Linientool den ASP- Code oder nur das Rendering des HTML erhalten? Ich muss das versuchen. Dies könnte für Entwickler etwas besorgniserregend sein, wenn dies der Fall ist ...
Taptronic
6
@optimal, die HTML-Ausgabe natürlich - es würde den Code nur bekommen, wenn der Server schlecht konfiguriert war
Jonik
2
Leider funktioniert es bei mir nicht - es gibt ein Problem mit Links zu CSS-Dateien, sie werden nicht in relative Dateien geändert, dh Sie können in Dateien Folgendes sehen: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> was lokal nicht gut funktioniert, es sei denn, es gibt ein waz, um Firefox zu täuschen, dass ein bestimmtes Verzeichnis eine Wurzel ist.
Gorn
148
Benutze wget:
wget -m -p -E -k www.example.com
Die Optionen erklärt:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
+1 für die Erläuterung der vorgeschlagenen Optionen. (Obwohl ich dies nicht für --mirrorsehr selbsterklärend halte . Hier aus der Manpage: " Diese Option aktiviert die Rekursion und die Zeitstempelung, legt die unendliche Rekursionstiefe fest und behält die FTP-Verzeichnislisten bei. Sie entspricht derzeit -r -N- l inf
no
2
Wenn Sie nicht alles in einen Ordner mit dem Namen der Domäne herunterladen möchten, die Sie spiegeln möchten, erstellen Sie einen eigenen Ordner und verwenden Sie die Option -nH (wodurch der Host-Teil übersprungen wird).
Rafael Bugajewski
2
Was ist, wenn die Authentifizierung erforderlich ist?
Val
4
Ich habe versucht, mit Ihrem wget --mirror -p --html-extension --convert-links www.example.comund es hat gerade den Index heruntergeladen. Ich denke, Sie müssen -rdie gesamte Website herunterladen.
Eric Brotto
4
-w secondsWenn Sie Bedenken haben, eine Site aufgrund von Datenverkehr oder zu vielen Anfragen zu beenden , verwenden Sie (, um eine Anzahl von Sekunden zwischen den Anfragen zu warten, oder --limit-rate=amount, um die maximale Bandbreite für den Download
Ab Version 57 (Quantum) nicht mehr mit Firefox kompatibel.
Yay295
8
Der Internet Download Manager verfügt über ein Site Grabber-Dienstprogramm mit zahlreichen Optionen, mit denen Sie jede gewünschte Website ganz nach Ihren Wünschen herunterladen können.
Sie können das Limit für die Größe der herunterzuladenden Seiten / Dateien festlegen
Sie können die Anzahl der zu besuchenden Zweigstellen festlegen
Sie können das Verhalten von Skripten / Popups / Duplikaten ändern
Sie können eine Domain angeben. Nur unter dieser Domain werden alle Seiten / Dateien heruntergeladen, die die erforderlichen Einstellungen erfüllen
Die Links können zum Durchsuchen in Offline-Links konvertiert werden
Sie haben Vorlagen, mit denen Sie die obigen Einstellungen für Sie auswählen können
Die Software ist jedoch nicht kostenlos. Verwenden Sie die Testversion, um festzustellen, ob sie Ihren Anforderungen entspricht.
Ich werde auf die Online-Pufferung eingehen, die Browser verwenden ...
In der Regel verwenden die meisten Browser einen Browser-Cache, um die Dateien, die Sie von einer Website herunterladen, für eine Weile zu speichern, damit Sie nicht immer wieder statische Bilder und Inhalte herunterladen müssen. Dies kann unter Umständen die Dinge erheblich beschleunigen. Im Allgemeinen sind die meisten Browser-Caches auf eine feste Größe beschränkt. Wenn diese Grenze erreicht wird, werden die ältesten Dateien im Cache gelöscht.
ISPs verfügen in der Regel über Caching-Server, auf denen Kopien von Websites gespeichert sind, auf die häufig zugegriffen wird, z. B. ESPN und CNN. Dies erspart ihnen die Mühe, diese Sites jedes Mal aufzurufen, wenn jemand in ihrem Netzwerk dorthin geht. Dies kann zu erheblichen Einsparungen bei der Anzahl der duplizierten Anfragen an externe Websites beim Internetdienstanbieter führen.
Ich habe das seit vielen Jahren nicht mehr gemacht, aber es gibt immer noch ein paar Versorgungsunternehmen. Vielleicht möchten Sie es mit Web Snake versuchen . Ich glaube, ich habe es vor Jahren benutzt. Ich erinnerte mich sofort an den Namen, als ich Ihre Frage las.
Ich stimme Stecy zu. Bitte hämmern Sie nicht ihre Website. Sehr schlecht.
Es ist ein kostenloser, leistungsfähiger Offline-Browser. Ein Hochgeschwindigkeits-Programm zum Herunterladen und Anzeigen von Websites mit mehreren Threads. Durch die gleichzeitige Eingabe mehrerer Serveranforderungen kann BackStreet Browser schnell die gesamte Website oder Teile einer Website herunterladen, einschließlich HTML, Grafiken, Java-Applets, Sound und anderer benutzerdefinierbarer Dateien. Alle Dateien auf Ihrer Festplatte werden entweder im nativen Format gespeichert. oder als komprimierte ZIP-Datei und offline anzeigen.
Teleport Pro ist eine weitere kostenlose Lösung, mit der alle Dateien von jedem Ziel kopiert werden können (es gibt auch eine kostenpflichtige Version, mit der Sie mehr Seiten mit Inhalten abrufen können).
DownThemAll ist ein Firefox-Add-On, das den gesamten Inhalt (z. B. Audio- oder Videodateien) für eine bestimmte Webseite mit einem einzigen Klick herunterlädt. Dadurch wird nicht die gesamte Website heruntergeladen, aber möglicherweise wurde nach so etwas gesucht.
Es können nur Links (HTML) und Medien (Bilder) heruntergeladen werden.
Ain
3
Für Linux und OS X: Ich habe eine Grab-Site für die Archivierung ganzer Websites in WARC- Dateien geschrieben. Diese WARC-Dateien können durchsucht oder extrahiert werden. Mit grab-site können Sie steuern, welche URLs mit regulären Ausdrücken übersprungen werden sollen. Diese können geändert werden, wenn der Crawl ausgeführt wird. Es enthält auch eine Reihe von Standardeinstellungen zum Ignorieren von Junk-URLs.
Es gibt ein Web-Dashboard zum Überwachen von Crawls sowie zusätzliche Optionen zum Überspringen von Videoinhalten oder Antworten über eine bestimmte Größe.
Obwohl wget bereits erwähnt wurde, war diese Ressource und Befehlszeile so nahtlos, dass ich dachte, es verdient Erwähnung:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Site Explorer Mit
Site Explorer können Sie die Ordnerstruktur einer Website anzeigen und auf einfache Weise die erforderlichen Dateien oder Ordner herunterladen. HTML Spider Mit HTML Spider können
Sie ganze Webseiten oder sogar ganze Websites herunterladen. Das Tool kann so angepasst werden, dass nur Dateien mit den angegebenen Erweiterungen heruntergeladen werden.
Ich finde, dass der Site Explorer hilfreich ist, um festzustellen, welche Ordner eingeschlossen oder ausgeschlossen werden sollen, bevor Sie versuchen, die gesamte Site herunterzuladen. Dies gilt insbesondere dann, wenn sich auf der Site ein ganzes Forum versteckt, das Sie beispielsweise nicht herunterladen möchten.
Eine Web - Seite in Ihrem Browser ist nur eine von vielen einer Web - Site .
Arjan
@Arjan Ich denke, das macht meine Option arbeitsintensiv. Ich glaube, es ist üblicher, dass Leute nur eine Seite speichern wollen, daher ist diese Antwort möglicherweise besser für diejenigen, die hierher kommen.
Antworten:
HTTRACK funktioniert wie ein Champion, um den Inhalt einer ganzen Site zu kopieren. Dieses Tool kann sogar die Teile erfassen, die benötigt werden, damit eine Website mit aktivem Code offline funktioniert. Ich bin erstaunt über das, was es offline replizieren kann.
Dieses Programm wird alles tun, was Sie dafür benötigen.
Fröhliches Jagen!
quelle
Wget ist ein klassisches Befehlszeilenprogramm für diese Art von Aufgaben. Es wird mit den meisten Unix / Linux-Systemen geliefert und ist auch für Windows erhältlich . Auf einem Mac ist Homebrew der einfachste Weg, es zu installieren (
brew install wget
).Sie würden etwas tun wie:
Weitere Informationen finden Sie im Wget-Handbuch und seinen Beispielen oder zB in den folgenden Abschnitten:
wget: Laden Sie einfach ganze Webseiten herunter
Wget Beispiele und Skripte
quelle
Benutze wget:
Die Optionen erklärt:
quelle
--mirror
sehr selbsterklärend halte . Hier aus der Manpage: " Diese Option aktiviert die Rekursion und die Zeitstempelung, legt die unendliche Rekursionstiefe fest und behält die FTP-Verzeichnislisten bei. Sie entspricht derzeit -r -N- l infwget --mirror -p --html-extension --convert-links www.example.com
und es hat gerade den Index heruntergeladen. Ich denke, Sie müssen-r
die gesamte Website herunterladen.-w seconds
Wenn Sie Bedenken haben, eine Site aufgrund von Datenverkehr oder zu vielen Anfragen zu beenden , verwenden Sie (, um eine Anzahl von Sekunden zwischen den Anfragen zu warten, oder--limit-rate=amount
, um die maximale Bandbreite für den DownloadSie sollten sich ScrapBook , eine Firefox-Erweiterung, ansehen . Es verfügt über einen detaillierten Erfassungsmodus .
quelle
Der Internet Download Manager verfügt über ein Site Grabber-Dienstprogramm mit zahlreichen Optionen, mit denen Sie jede gewünschte Website ganz nach Ihren Wünschen herunterladen können.
Sie können das Limit für die Größe der herunterzuladenden Seiten / Dateien festlegen
Sie können die Anzahl der zu besuchenden Zweigstellen festlegen
Sie können das Verhalten von Skripten / Popups / Duplikaten ändern
Sie können eine Domain angeben. Nur unter dieser Domain werden alle Seiten / Dateien heruntergeladen, die die erforderlichen Einstellungen erfüllen
Die Links können zum Durchsuchen in Offline-Links konvertiert werden
Sie haben Vorlagen, mit denen Sie die obigen Einstellungen für Sie auswählen können
Die Software ist jedoch nicht kostenlos. Verwenden Sie die Testversion, um festzustellen, ob sie Ihren Anforderungen entspricht.
quelle
itsucks - so heißt das Programm!
quelle
Ich werde auf die Online-Pufferung eingehen, die Browser verwenden ...
In der Regel verwenden die meisten Browser einen Browser-Cache, um die Dateien, die Sie von einer Website herunterladen, für eine Weile zu speichern, damit Sie nicht immer wieder statische Bilder und Inhalte herunterladen müssen. Dies kann unter Umständen die Dinge erheblich beschleunigen. Im Allgemeinen sind die meisten Browser-Caches auf eine feste Größe beschränkt. Wenn diese Grenze erreicht wird, werden die ältesten Dateien im Cache gelöscht.
ISPs verfügen in der Regel über Caching-Server, auf denen Kopien von Websites gespeichert sind, auf die häufig zugegriffen wird, z. B. ESPN und CNN. Dies erspart ihnen die Mühe, diese Sites jedes Mal aufzurufen, wenn jemand in ihrem Netzwerk dorthin geht. Dies kann zu erheblichen Einsparungen bei der Anzahl der duplizierten Anfragen an externe Websites beim Internetdienstanbieter führen.
quelle
Ich mag den Offline Explorer .
Es ist eine Shareware, aber sehr gut und einfach zu bedienen.
quelle
Auch WebZip ist ein gutes Produkt.
quelle
Ich habe das seit vielen Jahren nicht mehr gemacht, aber es gibt immer noch ein paar Versorgungsunternehmen. Vielleicht möchten Sie es mit Web Snake versuchen . Ich glaube, ich habe es vor Jahren benutzt. Ich erinnerte mich sofort an den Namen, als ich Ihre Frage las.
Ich stimme Stecy zu. Bitte hämmern Sie nicht ihre Website. Sehr schlecht.
quelle
Probieren Sie den BackStreet Browser aus .
quelle
Teleport Pro ist eine weitere kostenlose Lösung, mit der alle Dateien von jedem Ziel kopiert werden können (es gibt auch eine kostenpflichtige Version, mit der Sie mehr Seiten mit Inhalten abrufen können).
quelle
DownThemAll ist ein Firefox-Add-On, das den gesamten Inhalt (z. B. Audio- oder Videodateien) für eine bestimmte Webseite mit einem einzigen Klick herunterlädt. Dadurch wird nicht die gesamte Website heruntergeladen, aber möglicherweise wurde nach so etwas gesucht.
quelle
Für Linux und OS X: Ich habe eine Grab-Site für die Archivierung ganzer Websites in WARC- Dateien geschrieben. Diese WARC-Dateien können durchsucht oder extrahiert werden. Mit grab-site können Sie steuern, welche URLs mit regulären Ausdrücken übersprungen werden sollen. Diese können geändert werden, wenn der Crawl ausgeführt wird. Es enthält auch eine Reihe von Standardeinstellungen zum Ignorieren von Junk-URLs.
Es gibt ein Web-Dashboard zum Überwachen von Crawls sowie zusätzliche Optionen zum Überspringen von Videoinhalten oder Antworten über eine bestimmte Größe.
quelle
Macht wget
Obwohl wget bereits erwähnt wurde, war diese Ressource und Befehlszeile so nahtlos, dass ich dachte, es verdient Erwähnung:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Sehen Sie sich diesen Code an, der auf der EXPLAIN-Shell erklärt wird
quelle
Der ehrwürdige FreeDownloadManager.org hat auch diese Funktion.
Free Download Manager hat es in zwei Formen in zwei Formen: Site Explorer und Site Spider :
Ich finde, dass der Site Explorer hilfreich ist, um festzustellen, welche Ordner eingeschlossen oder ausgeschlossen werden sollen, bevor Sie versuchen, die gesamte Site herunterzuladen. Dies gilt insbesondere dann, wenn sich auf der Site ein ganzes Forum versteckt, das Sie beispielsweise nicht herunterladen möchten.
quelle
Download von HTTracker Es werden sehr einfache Schritte zum Herunterladen von Websites ausgeführt.
Download-Link: http://www.httrack.com/page/2/
Ein Video, das Ihnen dabei helfen kann: https://www.youtube.com/watch?v=7IHIGf6lcL4
quelle
Firefox kann das nativ (mindestens FF 42). Verwenden Sie einfach "Seite speichern"
quelle
Ich glaube, Google Chrome kann dies auf Desktop-Geräten tun. Rufen Sie einfach das Browser-Menü auf und klicken Sie auf Webseite speichern.
Beachten Sie auch, dass Dienste wie pocket die Website möglicherweise nicht wirklich speichern und daher anfällig für Links sind.
Beachten Sie außerdem, dass das Kopieren der Inhalte einer Website möglicherweise das Urheberrecht verletzt, sofern dies zutrifft.
quelle