So laden Sie eine vollständige Website herunter, ignorieren jedoch alle Binärdateien.
wget
Diese Funktion nutzt das -r
Flag, lädt jedoch alles herunter, und einige Websites sind für einen Computer mit geringen Ressourcen einfach zu umfangreich. Dies ist aus dem speziellen Grund, aus dem ich die Website herunterlade, nicht sinnvoll.
Hier ist die Kommandozeile, die ich benutze: wget -P 20 -r -l 0 http://www.omardo.com/blog
(mein eigenes Blog)
wget
recursive
download
mime-types
Omar Al-Ithawi
quelle
quelle
Antworten:
Sie können eine Liste der erlaubten bzw. unzulässige Dateinamenmuster:
Dürfen:
Nicht erlaubt:
LIST
ist eine durch Kommas getrennte Liste von Dateinamenmustern / -erweiterungen.Sie können die folgenden reservierten Zeichen verwenden, um Muster anzugeben:
*
?
[
]
Beispiele:
-A png
-R css
-R avatar*.png
Wenn die Datei keine Endung hat bzw. Der Dateiname hat kein Muster, das Sie verwenden könnten, Sie müssten MIME-Typ analysieren, denke ich (siehe Lars Kotthoffs Antwort ).
quelle
Sie könnten versuchen , wget mit Patchen diesem (auch hier ) zu filtern nach MIME - Typ. Dieser Patch ist allerdings schon ziemlich alt, sodass er möglicherweise nicht mehr funktioniert.
quelle
Ein neues Wget (Wget2) hat bereits eine Funktion:
Wget2 wurde bis heute nicht veröffentlicht, wird aber bald veröffentlicht. Debian Unstable hat bereits eine Alpha-Version ausgeliefert.
Weitere Informationen finden Sie unter https://gitlab.com/gnuwget/wget2 . Sie können Fragen / Kommentare direkt an [email protected] senden.
quelle
Ich habe versucht, einen völlig anderen Ansatz zu verwenden, jedoch hat es das gleiche Problem! So habe ich es gelöst: SO: Python Scrapy - Mimetype-basierter Filter, um das Herunterladen von Nicht-Textdateien zu vermeiden?
quelle