wget: Deaktivieren Sie die Option zum erzwungenen Abrufen von HTML-Dateien

0

Bei der Durchführung eines rekursiven Downloads gebe ich über den Parameter -R ein Muster an, das wget ablehnen soll. Handelt es sich bei dieser Datei um eine HTML-Datei, wird die Datei heruntergeladen, unabhängig davon, ob sie dem Muster entspricht oder nicht.

z.B.

wget -r -R "*dynamicfile*" example.com

ruft weiterhin Dateien wie example.com/dynamicfile1.html ab

Gibt es eine Möglichkeit, dies zu verhindern?

Mike B
quelle

Antworten:

0

Dies geschieht, weil wget anhand der HTML-Dateien weiß, wo als Nächstes gescannt werden muss, während es durch die Webseite kriecht. Ich würde wget einfach sein Geschäft machen lassen und dann ein rm * .html machen, nachdem es fertig ist, oder so ähnlich.

BEARBEITEN: Tun ein rsync *dynamicfile* /foo/bar Ein zweites Verzeichnis könnte eine bessere Möglichkeit sein, Ihre Dateien zu filtern, um nur diejenigen mit dem richtigen Namen zu behalten (vorausgesetzt, Sie möchten einige der HTML-Dateien behalten, wenn sie den richtigen Namen haben).

Jarvin
quelle
1
Ich versuche, die Datei zu filtern, weil sie dazu führt, dass wget in einer Endlosschleife hängen bleibt, sodass dies nicht funktioniert.
Mike B
Klingt so, als wäre Ihre Endlosschleife das wahre Problem, mit dem Sie sich befassen möchten. Dies ist so unterschiedlich, dass Sie wahrscheinlich nur eine neue Frage stellen sollten, um Endlosschleifen mit wget zu verhindern.
Jarvin
Sie sollten wget eine Tiefenbeschränkung hinzufügen. Dadurch wird sichergestellt, dass es sich nicht um eine Endlosschleife handelt.
Jarvin