Batch-Downloadseiten aus einem Wiki ohne spezielle Seiten

2

Von Zeit zu Zeit finde ich im Internet einige Dokumentationen, die ich für die Offline-Verwendung meines Notebooks benötige. Normalerweise feuere ich wget an und bekomme die ganze Seite.

Viele Projekte wechseln jedoch jetzt zu Wikis. Das heißt, ich lade jede Version und jeden Link "Edit Me" herunter.

Gibt es ein Tool oder eine Konfiguration in wget, so dass ich zum Beispiel herunterladen kann nur Dateien ohne Abfragezeichenfolge oder Übereinstimmung mit einem bestimmten Regex?

Prost,

Apropos: wget hat den sehr nützlichen Schalter -k, der alle In-Site-Links zu ihren lokalen Pendants konvertiert. Das wäre eine weitere Voraussetzung. Beispiel: Abrufen http://example.com Seiten. Dann alle Links zu "/ ..." oder " http://example.com/ ... "müssen entsprechend dem heruntergeladenen Gegenstück konvertiert werden.

Boldewyn
quelle

Antworten:

1

Von der Wget-Man-Seite:

-R rejlist - rejlist ablehnen

Geben Sie durch Kommas getrennte Listen mit Dateinamensuffixen oder -mustern an   akzeptieren oder ablehnen Beachten Sie, dass wenn   die Platzhalterzeichen, *,?, [oder          ], erscheinen in einem Element von acclist oder rejlist, es wird behandelt   als Muster statt als Suffix.

Das scheint genau das zu sein, was Sie brauchen.

Hinweis: Um die Belastung des Wiki-Servers zu verringern, sollten Sie die Flags -w und --random-wait betrachten.

CarlF
quelle
Cool, ich habe diese Option einfach nicht gesehen. Vielen Dank.
Boldewyn
0

Die meisten runzeln die Stirn, und Wikipedia schließt sie aktiv mit robots.txt ab. Ich würde bei bleiben http://en.wikipedia.org/wiki/Special:Export

user10547
quelle
Ich weiß, dass es für den Server ziemlich anstrengend ist, aber das ist einer der Gründe, warum ich nur notwendige Dateien herunterladen möchte. Auf jeden Fall liefern manche Projekte ihre Seiten nicht in einem anderen Format als Wiki-Seiten.
Boldewyn