Alternativen zu wget

12

Ich habe eine Site auf einem Server, die im Grunde genommen aus einer Reihe von HTML-Seiten, Bildern und Sounds besteht.

Ich habe mein Passwort für diesen Server verloren und muss alles abrufen, was dort gespeichert ist. Ich kann Seite für Seite gehen und alles speichern, aber die Site hat mehr als 100 Seiten.

Ich benutze OSX. Ich habe versucht, zu verwenden, wgetaber ich denke, der Server blockiert das.

Gibt es eine Alternative, mit der ich diesen Inhalt abrufen kann?

Weltraumhund
quelle
Wenn Sie physischen Zugriff auf den Server haben, starten Sie den Einzelbenutzermodus und stellen Sie Ihr Kennwort wieder her. debuntu.org/…
Spuder

Antworten:

14

Wenn der Server wget blockiert, erfolgt dies höchstwahrscheinlich auf der Grundlage des Felds "User-agent:" des http-Headers, da dies der einzige Weg ist, den er überhaupt kennt. Es kann auch sein, dass Ihre IP blockiert wird. In diesem Fall hilft es nicht, eine andere Software zu verwenden, oder es gibt ein Schema, das die Automatisierung anhand der Geschwindigkeit einer Reihe von Anforderungen identifiziert (da echte Personen nicht in 3,2 Sekunden 100 Seiten durchsuchen). . Ich habe noch nie von jemandem gehört, aber es ist möglich.

Ich habe auch nicht von einer Möglichkeit gehört, wget zu verlangsamen, aber es gibt eine Möglichkeit, das User-Agent-Feld zu fälschen:

wget --user-agent=""

Werde laut Manpage "User-Agent:" komplett streichen, da es nicht zwingend ist. Wenn der Server das nicht mag, probieren Sie, --user-agent="Mozilla/5.0"welches gut genug sein sollte.

Natürlich wäre es hilfreich, wenn Sie besser erklären würden, warum Sie glauben, dass der Server dies blockiert. Sagt wget irgendetwas oder ist es nur eine Auszeit?

Goldlöckchen
quelle
Oh ja! Vielen Dank. Ich habe das auf der wget Hilfe verpasst. Es funktioniert jetzt!!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog
5
wgetEs gibt eine Reihe von Optionen, um zwischen Abfragen zu warten, die Rate oder die heruntergeladene Menge zu begrenzen. Überprüfen Sie die infoSeite für Details.
Stéphane Chazelas
6

Normalerweise verwende ich httrackzum Herunterladen / Spiegeln von Webinhalten von einer Website.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Nachdem es ausgeführt wurde, haben Sie eine Verzeichnisstruktur, die lokal und durchsuchbar ist. Beispielsweise:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Beim Herunterladen sehen Sie den folgenden Ausgabetyp:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Es kann im Hintergrund und / oder abgebrochen und später fortgesetzt werden. Dies ist nur die Spitze des Eisbergs in Bezug auf seine Funktionen. Es gibt auch eine grafische Benutzeroberfläche, über die Sie einen Download einrichten und im Verlauf überwachen können.

Es gibt umfangreiche Dokumentationen auf der httrackWebsite und durch googeln.

slm
quelle