Ich versuche, zwei Websites zur Aufnahme auf eine CD herunterzuladen:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Das Problem, das ich habe, ist, dass dies beide Wikis sind. Also beim Herunterladen mit zB:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Ich bekomme viele Dateien, weil es auch Links wie ...? Action = edit ...? Action = diff & version = ... folgt.
Kennt jemand einen Weg, um das zu umgehen?
Ich möchte nur die aktuellen Seiten, ohne Bilder und ohne Unterschiede usw.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Das hat bei Berkeley funktioniert, aber boinc-wiki.info macht mir immer noch Probleme: /
PPS:
Ich habe die anscheinend relevantesten Seiten mit:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Antworten:
Die neue Version von wget (v.1.14) löst all diese Probleme.
Sie müssen die neue Option verwenden
--reject-regex=....
, um Abfragezeichenfolgen zu verarbeiten.Beachten Sie, dass ich das neue Handbuch mit diesen neuen Optionen nicht finden konnte. Sie müssen daher den Befehl help verwenden
wget --help > help.txt
quelle
(
--reject-type posix
standardmäßig). Funktioniertwget
laut anderen Kommentaren nur für neuere (> = 1.14) Versionen von .Beachten Sie, dass Sie anscheinend
--reject-regex
nur einmal prowget
Anruf verwenden können. Das heißt, Sie müssen|
in einem einzelnen regulären Ausdruck verwenden, wenn Sie mehrere reguläre Ausdrücke auswählen möchten:quelle
|
Symbol ("Pipe") funktioniert bei GNU Wget 1.16 nicht.Dies schließt alles aus, was
?action=
in seinem Namen enthalten ist.quelle
Ich würde sagen, dass das Leeching einer öffentlichen Wiki-Site eine schlechte Praxis ist, da dies eine zusätzliche Belastung darstellt.
Wenn ein Wiki öffentlich ist und die Websitebesitzer nichts dagegen haben, den Inhalt zu teilen, stellen sie normalerweise einen herunterladbaren Backend-Dump (Datenbank oder was auch immer) zur Verfügung. Sie würden also einfach das Datenpaket herunterladen, eine lokale Instanz derselben Wiki-Engine einrichten, die Daten darin importieren und eine lokale Kopie haben. Wenn Sie möchten, können Sie danach das Blutegel vor Ort durchführen.
quelle