Von Zeit zu Zeit finde ich im Internet einige Dokumentationen, die ich für die Offline-Verwendung meines Notebooks benötige. Normalerweise feuere ich wget an und bekomme die ganze Seite.
Viele Projekte wechseln jedoch jetzt zu Wikis. Das heißt, ich lade jede Version und jeden Link "Edit Me" herunter.
Gibt es ein Tool oder eine Konfiguration in wget, so dass ich zum Beispiel herunterladen kann nur Dateien ohne Abfragezeichenfolge oder Übereinstimmung mit einem bestimmten Regex?
Prost,
Apropos: wget hat den sehr nützlichen Schalter -k, der alle In-Site-Links zu ihren lokalen Pendants konvertiert. Das wäre eine weitere Voraussetzung. Beispiel: Abrufen http://example.com Seiten. Dann alle Links zu "/ ..." oder " http://example.com/ ... "müssen entsprechend dem heruntergeladenen Gegenstück konvertiert werden.
Die meisten runzeln die Stirn, und Wikipedia schließt sie aktiv mit robots.txt ab. Ich würde bei bleiben http://en.wikipedia.org/wiki/Special:Export
quelle