Wie kann ich dafür sorgen, dass wget nur Seiten herunterlädt, keine CSS-Bilder usw.?

10

Ich möchte eine ganze Website mit wget herunterladen, aber ich möchte nicht, dass wget Bilder, Videos usw. herunterlädt.

Ich habe es versucht

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Aber wenn ich das mache, werden keine .php-Dateien heruntergeladen, sondern nur statische .html-Dateien.

Gibt es eine Lösung für dieses Problem mit wget?

user1126446
quelle

Antworten:

6

Sie haben wget ausdrücklich angewiesen, nur Dateien zu akzeptieren, die .htmlein Suffix haben.

Angenommen, die PHP-Seiten haben .php, können Sie dies tun:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Beachten Sie, dass dadurch das gerenderte HTML heruntergeladen wird, nicht die Quelle des PHP. Wenn die Seite ausreichend dynamisch ist, erhalten Sie möglicherweise nicht das erwartete gerenderte Ergebnis.

Ich würde jedoch vorschlagen, dass ein anderes Tool wie httrack einen besseren Job macht - es hängt genau davon ab, was Sie tun müssen.

James Polley
quelle
3

-A nimmt eine Liste, also -A.html, .php sollte die Rechnung passen. Sie sollten auch in -R nachsehen (es wird auch eine Ablehnungsliste benötigt).

Alien Lebensform
quelle