Wie kann ich eine ganze Website herunterladen?

81

Ich möchte eine ganze Website (mit Unterseiten) herunterladen. Gibt es dafür ein Werkzeug?

UAdapter
quelle
1
Was genau versuchst du zu erreichen? Der Titel und der Inhalt Ihrer Frage hängen nicht zusammen, und der Inhalt ist nicht spezifisch.
RolandiXor
--convert-linksHinweis: Wenn Sie nur Links folgen (z. B. in wget verwenden), werden Websites, die unter anderem nur durch das Absenden eines Formulars angezeigt werden, nicht angezeigt.
Steven

Antworten:

140

Probieren Sie Beispiel 10 von hier aus :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : Optionen für das Spiegeln aktivieren.

  • -p : Laden Sie alle Dateien herunter, die für die korrekte Anzeige einer bestimmten HTML-Seite erforderlich sind.

  • --convert-links : Konvertieren Sie nach dem Download die Links im Dokument für die lokale Anzeige.

  • -P ./LOCAL-DIR : Speichern Sie alle Dateien und Verzeichnisse im angegebenen Verzeichnis.
Shellholic
quelle
Gibt es eine Möglichkeit, nur bestimmte Seiten herunterzuladen (z. B. mehrere Teile eines Artikels, der über mehrere HTML-Dokumente verteilt ist)?
don.joey
@Private Ja, obwohl es wahrscheinlich einfacher ist, Python oder etwas anderes zu verwenden, um die Seiten zu erhalten (je nach Layout / URL). Wenn sich die URL der Seiten um eine stetig wachsende Zahl unterscheidet oder wenn Sie eine Liste der Seiten haben, könnten Sie wget wahrscheinlich in einem Bash-Skript verwenden.
Realität
2
Sie können das --wait=secondsArgument verwenden, wenn Sie der Site freundlicher gegenüberstehen möchten. Es wird die angegebene Anzahl von Sekunden zwischen den Abrufen gewartet.
Belacqua
das obige funktioniert, aber für joomla erstellt die parametrisierte url dateien, die nicht lokal verlinkt sind. Die eine, die für mich gearbeitet hat, ist wget -m -k -E your.domain.com von hier: vaasa.hacklab.fi/2013/11/28/…
M.Hefny
1
Auch --no-parentum "niemals in das übergeordnete Verzeichnis aufzusteigen" wird von hier ausgegangen .
Daniel
38

HTTrack für Linux - Kopieren von Websites im Offline-Modus

httrack ist das Tool, das Sie suchen.

Mit HTTrack können Sie eine World Wide Web-Site aus dem Internet in ein lokales Verzeichnis herunterladen, rekursiv alle Verzeichnisse erstellen und HTML, Bilder und andere Dateien vom Server auf Ihren Computer übertragen. HTTrack ordnet die relative Linkstruktur der ursprünglichen Site an.

Sid
quelle
7

Wenn wgetSie eine gesamte Website herunterladen können, sollten Sie -rswitch für einen rekursiven Download verwenden. Zum Beispiel,

wget -r http://www.google.com
Arthur Knopper
quelle
6

WEBHTTRACK WEBSITE COPIER ist ein praktisches Tool zum Herunterladen einer ganzen Website auf Ihre Festplatte zum Offline-Browsen. Starten Sie ubuntu software center und geben Sie "webhttrack website copier" ohne die Anführungszeichen in das Suchfeld ein. Wählen Sie es aus dem Software-Center aus und laden Sie es auf Ihr System herunter. Starten Sie den webHTTrack entweder über den Laucher oder über das Startmenü. Von dort aus können Sie dieses großartige Tool für Ihre Site-Downloads nutzen

friseR
quelle
3

Ich kenne keine Subdomains, dh Sub-Sites, aber wget kann verwendet werden, um eine vollständige Site zu erstellen. Werfen Sie einen Blick auf diese Superuser-Frage . Es heißt, dass Sie -D domain1.com,domain2.comverschiedene Domänen in einem einzigen Skript herunterladen können. Ich denke, Sie können diese Option zum Herunterladen von Subdomains verwenden, z-D site1.somesite.com,site2.somesite.com

binW
quelle
1

Ich benutze Burp - das Spider-Tool ist viel intelligenter als Wget und kann so konfiguriert werden, dass bei Bedarf Abschnitte vermieden werden . Die Burp Suite selbst ist eine leistungsstarke Sammlung von Tools, die beim Testen helfen. Das Spider-Tool ist jedoch sehr effektiv.

Rory Alsop
quelle
1
Ist Burp nicht nur Windows? Der Closed-Source-Lizenzvertrag für Burp ist ebenfalls recht umfangreich. Ganz zu schweigen vom Preisschild 299,00 $:
Kat Amsterdam
Aus der Lizenz: WARNUNG: Die BURP SUITE FREE EDITION wurde für die Prüfung von Sicherheitsmängeln entwickelt und kann aufgrund der Funktionsweise der Software Schäden an den Zielsystemen verursachen. TESTEN AUF SICHERHEITSFLÄCHEN UMFASST INHÄRT NICHT STANDARDMÄSSIGE ZIELE, DIE ZU PROBLEMEN BEI EINIGEN VERLETZBAREN ZIELEN FÜHREN KÖNNEN. WENN SIE DIE SOFTWARE VERWENDEN, MÜSSEN SIE VOR DER VERWENDUNG ALLE DOKUMENTATIONEN DURCHLESEN, DÜRFEN SIE VOR DER VERWENDUNG ZIELSYSTEME SICHERN UND DIE SOFTWARE NICHT AUF PRODUKTIONSYSTEMEN ODER ANDEREN SYSTEMEN VERWENDEN, FÜR DIE DAS SCHADENSGEFAHR NICHT GELTEN .
Kat Amsterdam
Für das, was es tut, ist das Preisschild erstaunlich günstig - ich würde empfehlen, es für eine breite Palette von Sicherheitstests zu kaufen. Und es ist sehr einfach, es so zu konfigurieren, dass es genau nach Ihren Wünschen getestet werden kann - in einigen Fällen sicherer als AppScan :-)
Rory Alsop
1
@KatAmsterdam Was speziell die Kompatibilitätsfrage betrifft: Laut Wikipedia ist Burp Suite eine Java-Anwendung, daher sollte sie unter Ubuntu einwandfrei funktionieren .
Eliah Kagan
Kat - es läuft einwandfrei auf verschiedenen Linux-Versionen. Die Warnung auf der Lizenz ist identisch mit allen Tools, die Sie für Sicherheitsbewertungen verwenden können.
Rory Alsop
1

Sie können Entire Website Command herunterladen:

wget -r -l 0 website

Beispiel

wget -r -l 0 http://google.com
Harish Kotikalapudi
quelle
Können Sie bitte erklären, wie dieser Befehl funktioniert? Was es macht?
Kaz Wolfe
0

Wenn die Geschwindigkeit eine Rolle spielt (und das Wohlbefinden des Servers nicht), können Sie puf ausprobieren , das wie wget funktioniert, aber mehrere Seiten gleichzeitig herunterladen kann. Es ist jedoch kein fertiges Produkt, nicht gewartet und fürchterlich undokumentiert. Zum Herunterladen einer Website mit vielen, vielen kleinen Dateien ist dies jedoch möglicherweise eine gute Option.

Loevborg
quelle