+1 für -e robots=off! Dies hat endlich mein Problem behoben! :) Danke
NHDaly
12
Die --random-waitOption ist Genie;)
Poitroae
2
@izilotti Kann der Websitebesitzer herausfinden, ob Sie ihre Website-Dateien mit dieser Methode WGET?
Elias7
1
@whatIsperfect Es ist definitiv möglich.
Jack
1
@ JackNicholsonn Woher weiß der Websitebesitzer? Der verwendete Agent war Mozilla, was bedeutet, dass alle Header als Mozilla-Browser eingegeben werden, sodass es nicht möglich wäre, wget als verwendet zu erkennen. Bitte korrigieren Sie, wenn ich falsch liege. danke
KhoPhi
63
wget -m -p -E -k -K -np http://site/path/
Auf der Manpage erfahren Sie, was diese Optionen bewirken.
wgetfolgt nur Links, wenn auf der Indexseite kein Link zu einer Datei vorhanden ist, wgetweiß dann nichts über deren Existenz und lädt sie daher nicht herunter. dh. Es ist hilfreich, wenn alle Dateien auf Webseiten oder in Verzeichnisindizes verlinkt sind.
Vielen Dank für die Antwort :) Es kopiert die gesamte Website und ich benötige nur Dateien (dh txt, pdf, Bild usw.) auf der Website
Aniruddhsinh
25
Ich habe versucht, Zip-Dateien herunterzuladen, die von Omekas Themenseite verlinkt sind - eine ziemlich ähnliche Aufgabe. Das hat bei mir funktioniert:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: Akzeptiere nur Zip-Dateien
-r: rekursiv
-l 1: eine Ebene tief (dh nur Dateien, die direkt von dieser Seite verlinkt sind)
-nd: Erstellen Sie keine Verzeichnisstruktur, sondern laden Sie einfach alle Dateien in dieses Verzeichnis herunter.
Alle Antworten mit -k, -K, -Eetc Optionen haben wahrscheinlich nicht wirklich die Frage verstanden, wie diejenigen , die als zum Umschreiben von HTML - Seiten , um eine lokale Struktur zu machen, Umbenennen von .phpDateien und so weiter. Nicht relevant.
Um buchstäblich alle Dateien außer.html etc zu erhalten:
wget --spider
immer zuerst und fügen Sie immer-w 1
(oder mehr-w 5
) hinzu, damit Sie den Server der anderen Person nicht überfluten.Antworten:
So filtern Sie nach bestimmten Dateierweiterungen:
Oder wenn Sie lange Optionsnamen bevorzugen:
Dies wird die Site spiegeln, aber die Dateien ohne
jpg
oderpdf
Erweiterung werden automatisch entfernt.quelle
--accept
wird zwischen Groß- und Kleinschreibung unterschieden, also müssten Sie tun--accept pdf,jpg,PDF,JPG
wget
--progress
--progress=dot
--ignore-case
Flag verwenden, um die--accept
Groß- und Kleinschreibung nicht zu berücksichtigen .Dadurch wurde die gesamte Website für mich heruntergeladen :
quelle
-e robots=off
! Dies hat endlich mein Problem behoben! :) Danke--random-wait
Option ist Genie;)Auf der Manpage erfahren Sie, was diese Optionen bewirken.
wget
folgt nur Links, wenn auf der Indexseite kein Link zu einer Datei vorhanden ist,wget
weiß dann nichts über deren Existenz und lädt sie daher nicht herunter. dh. Es ist hilfreich, wenn alle Dateien auf Webseiten oder in Verzeichnisindizes verlinkt sind.quelle
Ich habe versucht, Zip-Dateien herunterzuladen, die von Omekas Themenseite verlinkt sind - eine ziemlich ähnliche Aufgabe. Das hat bei mir funktioniert:
-A
: Akzeptiere nur Zip-Dateien-r
: rekursiv-l 1
: eine Ebene tief (dh nur Dateien, die direkt von dieser Seite verlinkt sind)-nd
: Erstellen Sie keine Verzeichnisstruktur, sondern laden Sie einfach alle Dateien in dieses Verzeichnis herunter.Alle Antworten mit
-k
,-K
,-E
etc Optionen haben wahrscheinlich nicht wirklich die Frage verstanden, wie diejenigen , die als zum Umschreiben von HTML - Seiten , um eine lokale Struktur zu machen, Umbenennen von.php
Dateien und so weiter. Nicht relevant.Um buchstäblich alle Dateien außer
.html
etc zu erhalten:quelle
-A
Ich denke, es wird zwischen Groß- und Kleinschreibung unterschieden, also müssten Sie es tun-A zip,ZIP
Sie können versuchen:
Sie können auch hinzufügen:
um die spezifischen Erweiterungen zu akzeptieren oder nur bestimmte Erweiterungen abzulehnen:
oder um die spezifischen Bereiche auszuschließen:
Wenn die Dateien für Roboter (z. B. Suchmaschinen) ignoriert werden, müssen Sie außerdem Folgendes hinzufügen:
-e robots=off
quelle
Versuche dies. Es funktioniert immer bei mir
quelle
Dadurch werden alle Dateitypen lokal heruntergeladen und aus der HTML-Datei auf sie verwiesen. Die Roboterdatei wird ignoriert
quelle
Auf Windows-Systemen können Sie wget bekommen
quelle