Stellen Sie sicher, dass wget keine Dateien herunterlädt, die größer als X sind

11

Okay, ich gebe auf. Wie kann ich die Größe der heruntergeladenen Dateien begrenzen, z. B. wenn ich keine Dateien mit mehr als 2 MB möchte?

Nathaniel
quelle

Antworten:

6

Die einzige mir bekannte Einschränkungsoption, die wgetunterstützt wird, ist der -QKontingentwechsel. Dies ist jedoch nicht das, was Sie möchten, da es nach einer kombinierten Begrenzung aller heruntergeladenen Dateien und nicht einzeln beendet wird. -QWie in der Manpage erläutert, funktioniert es auch nicht, jeden Link separat mit dem Switch zu verbinden .

Ich weiß nicht, welche Umgebung Sie verwenden, aber der Crawler unterstützt Dateigrößenbeschränkungen mit maximaler Länge und wird auf der Java-Plattform ausgeführt.

aus ihrem Benutzerhandbuch :

  • Max-Länge-Bytes

Maximale Anzahl von Bytes zum Herunterladen pro Dokument. Schneidet die Datei ab, sobald dieses Limit erreicht ist.

Standardmäßig ist dieser Wert auf einen extrem großen Wert (im Exabyte-Bereich) eingestellt, der in der Praxis niemals erreicht wird.

John T.
quelle
Hmmm. Okay. Das wiederholte eine Menge von dem, was ich herausgefunden hatte, aber trotzdem eine gute Antwort. Ich wusste jedoch nicht, dass Heritrix Dateien abgeschnitten hat, anstatt sie zu überspringen.
Nathaniel
3

Wenn es darum geht, " maximal 2 MB herunterzuladen " und nicht " Dateien mit maximal 2 MB herunterzuladen ", können Sie die auf der Festplatte gespeicherte Ausgabe einfach einschränken.

wget -O - $url |head -c 1024(mit einem optionalen > $SaveAsFile) -> speichert die erste KB und der Rest wird abgeschnitten.

(genug, um eine " OK: $ Message " zu sehen, die mein / tmp nicht mit Tonnen von Fehlermeldungen von der Fernbedienung beendet ;-))

Tabakhase
quelle
1

Dies ist mithilfe von Patches von Drittanbietern möglich: http://yurichev.com/wget.html

Dennis Yurichev
quelle
Überprüfen Sie diesen Beitrag , müssen Sie.
James Mertz
@KronoS Es gibt genau dort eine Schaltfläche "Bearbeiten", wenn Sie der Meinung sind, dass die Antwort erweitert werden muss. Persönlich scheint es in Ordnung zu sein, da Satz 1 der verlinkten Seite die neue Option erklärt…
Supervacuo