Ich habe eine Site auf einem Server, die im Grunde genommen aus einer Reihe von HTML-Seiten, Bildern und Sounds besteht.
Ich habe mein Passwort für diesen Server verloren und muss alles abrufen, was dort gespeichert ist. Ich kann Seite für Seite gehen und alles speichern, aber die Site hat mehr als 100 Seiten.
Ich benutze OSX. Ich habe versucht, zu verwenden, wget
aber ich denke, der Server blockiert das.
Gibt es eine Alternative, mit der ich diesen Inhalt abrufen kann?
Antworten:
Wenn der Server wget blockiert, erfolgt dies höchstwahrscheinlich auf der Grundlage des Felds "User-agent:" des http-Headers, da dies der einzige Weg ist, den er überhaupt kennt. Es kann auch sein, dass Ihre IP blockiert wird. In diesem Fall hilft es nicht, eine andere Software zu verwenden, oder es gibt ein Schema, das die Automatisierung anhand der Geschwindigkeit einer Reihe von Anforderungen identifiziert (da echte Personen nicht in 3,2 Sekunden 100 Seiten durchsuchen). . Ich habe noch nie von jemandem gehört, aber es ist möglich.
Ich habe auch nicht von einer Möglichkeit gehört, wget zu verlangsamen, aber es gibt eine Möglichkeit, das User-Agent-Feld zu fälschen:
Werde laut Manpage "User-Agent:" komplett streichen, da es nicht zwingend ist. Wenn der Server das nicht mag, probieren Sie,
--user-agent="Mozilla/5.0"
welches gut genug sein sollte.Natürlich wäre es hilfreich, wenn Sie besser erklären würden, warum Sie glauben, dass der Server dies blockiert. Sagt wget irgendetwas oder ist es nur eine Auszeit?
quelle
wget
Es gibt eine Reihe von Optionen, um zwischen Abfragen zu warten, die Rate oder die heruntergeladene Menge zu begrenzen. Überprüfen Sie dieinfo
Seite für Details.Normalerweise verwende ich
httrack
zum Herunterladen / Spiegeln von Webinhalten von einer Website.Nachdem es ausgeführt wurde, haben Sie eine Verzeichnisstruktur, die lokal und durchsuchbar ist. Beispielsweise:
Beim Herunterladen sehen Sie den folgenden Ausgabetyp:
Es kann im Hintergrund und / oder abgebrochen und später fortgesetzt werden. Dies ist nur die Spitze des Eisbergs in Bezug auf seine Funktionen. Es gibt auch eine grafische Benutzeroberfläche, über die Sie einen Download einrichten und im Verlauf überwachen können.
Es gibt umfangreiche Dokumentationen auf der
httrack
Website und durch googeln.quelle