Ich habe Wget verwendet und bin auf ein Problem gestoßen. Ich habe eine Site, die mehrere Ordner und Unterordner innerhalb der Site hat. Ich muss den gesamten Inhalt in jedem Ordner und Unterordner herunterladen. Ich habe verschiedene Methoden mit Wget ausprobiert, und wenn ich den Abschluss überprüfe, sehe ich in den Ordnern nur eine "Index" -Datei. Ich kann auf die Indexdatei klicken, und es wird mich zu den Dateien führen, aber ich brauche die tatsächlichen Dateien.
Hat jemand einen Befehl für Wget, den ich übersehen habe, oder gibt es ein anderes Programm, mit dem ich all diese Informationen abrufen kann?
Standortbeispiel:
www.mysite.com/Pictures/ Im Pictures DIr gibt es mehrere Ordner .....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg
Ich brauche alle Dateien, Ordner usw.
wget
, insbesondere für die rekursive Verwendung ?Antworten:
Ich möchte annehmen, dass Sie dies nicht versucht haben:
oder um den Inhalt abzurufen, ohne die "index.html" -Dateien herunterzuladen:
Referenz: Verwenden von wget zum rekursiven Abrufen eines Verzeichnisses mit beliebigen Dateien
quelle
ich benutze
wget -rkpN -e robots=off http://www.example.com/
-r
bedeutet rekursiv-k
bedeutet Links konvertieren. Die Links auf der Webseite lauten also localhost anstelle von example.com/bla-p
bedeutet, dass Sie alle Webseitenressourcen abrufen und Bilder und Javascript-Dateien abrufen müssen, damit die Website ordnungsgemäß funktioniert.-N
Um Zeitstempel abzurufen, überspringen Sie lokale Dateien, die neuer sind als Dateien auf der Remote-Website.-e
ist eine Flag-Option, die vorhanden sein muss, damitrobots=off
sie funktioniert.robots=off
bedeutet, dass die Roboterdatei ignoriert wird.Ich hatte auch
-c
in diesem Befehl also, wenn sie Verbindung unterbrochen würde, wenn fortfahren würde, wo es aufgehört hat, als ich den Befehl erneut ausführte. Ich dachte,-N
würde gut mit gehen-c
quelle
-e
führt den Befehl so aus, als wäre er Teil von .wgetrc. Ich habe ihn dort hinzugefügt, da errobots=off
ohne ihn anscheinend nicht funktioniert hat.wget -m -A * -pk -e robots = off www.mysite.com/ Damit werden alle Arten von Dateien lokal heruntergeladen und aus der HTML-Datei
darauf verwiesen. Die Robots-Datei wird ignoriert
quelle