Ich versuche, zwei Websites zur Aufnahme auf eine CD herunterzuladen:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
Das Problem, das ich habe, ist, dass dies beide Wikis sind. Also beim Herunterladen mit zB:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Ich bekomme viele Dateien, weil es auch Links wie ...? Action = edit ...? Action = diff & version = ... folgt.
Kennt jemand einen Weg, um das zu umgehen?
Ich möchte nur die aktuellen Seiten, ohne Bilder und ohne Unterschiede usw.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Das hat bei Berkeley funktioniert, aber boinc-wiki.info macht mir immer noch Probleme: /
PPS:
Ich habe die anscheinend relevantesten Seiten mit:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Antworten:
(
--reject-type posix
standardmäßig). Funktioniertwget
laut anderen Kommentaren nur für neuere (> = 1.14) Versionen von .Beachten Sie, dass Sie anscheinend
--reject-regex
nur einmal prowget
Anruf verwenden können. Das heißt, Sie müssen|
in einem einzelnen regulären Ausdruck verwenden, wenn Sie mehrere reguläre Ausdrücke auswählen möchten:quelle
wget --reject-regex '\?' http://example.com
aus.Die Dokumentation für wget lautet:
Es sieht so aus, als ob diese Funktionalität schon eine Weile auf dem Tisch liegt und nichts damit gemacht wurde.
Ich habe es nicht verwendet, aber httrack scheint eine robustere Filterfunktion als wget zu haben und passt möglicherweise besser zu dem, was Sie suchen (Informationen zu Filtern finden Sie hier http://www.httrack.com/html) /fcguide.html ).
quelle
Die neue Version von wget (v.1.14) löst all diese Probleme.
Sie müssen die neue Option verwenden
--reject-regex=....
, um Abfragezeichenfolgen zu verarbeiten.Beachten Sie, dass ich das neue Handbuch mit diesen neuen Optionen nicht finden konnte. Sie müssen daher den Befehl help verwenden
wget --help > help.txt
quelle
Pavuk sollte dazu in der Lage sein:
http://pavuk.sourceforge.net/man.html#sect39
Mediawiki-Beispiel:
quelle
Es sieht so aus, als würden Sie versuchen, das Herunterladen spezieller Seiten von MediaWiki zu vermeiden. Ich habe dieses Problem einmal gelöst, indem ich die
index.php
Seite vermieden habe :Das Wiki verwendete jedoch die URLs wie in Wikipedia (
http://<wiki>/en/Theme
) und nicht das Muster, das ich an anderen Stellen gesehen habe (http://<wiki>/index.php?title=Theme
). Da der von Ihnen angegebene Link URLs im Wikipedia-Muster verwendet, kann diese Lösung meiner Meinung nach auch für Sie funktionieren.quelle
'-R rejlist --reject rejlist' Geben Sie durch Kommas getrennte Listen von Dateinamensuffixen oder -mustern an, die akzeptiert oder abgelehnt werden sollen (siehe Dateitypen). Beachten Sie, dass wenn eines der Platzhalterzeichen '*', '?', '[' Oder ']' in einem Element von acclist oder rejlist erscheint, es als Muster und nicht als Suffix behandelt wird.
Muster sind wahrscheinlich das, was Sie wollen. Ich bin nicht sicher, wie ausgefeilt die Muster sind, aber Sie können entweder versuchen, nur bestimmte Dateien zu akzeptieren oder zu blockieren:
Akzeptieren:
Edit: nvm im Lichte des anderen Beitrags.
quelle