Wie können Sie mit wget eine gesamte Site (Domain A) herunterladen, wenn sich ihre Ressourcen in einer anderen Domain befinden (Domain B)?
Ich habe es versucht:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA
16
--domains
für sich allein nicht aktiviert wird--span-hosts
. Das Hinzufügen--span-hosts
hätte das Problem gelöst. : |Antworten:
UPDATE: Ich erinnere mich, dass der obige Befehl in der Vergangenheit für mich funktioniert hat (das war 2010 und ich habe damals GNU Tools für Windows verwendet ). Ich musste es jedoch wie folgt ändern, als ich es heute verwenden wollte:
Die Abkürzung dafür wäre:
wget -rEDpkH -l inf domainA,domainB domainA
-r
=--recursive
-l <depth>
=--level=<depth>
-E
=--adjust-extension
-p
=--page-requisites
-K
=--backup-converted
-k
=--convert-links
-D <domain-list>
=--domain-list=<domain-list>
-H
=--span-hosts
-np
=--no-parent
-U <agent-string>
=--user-agent=<agent-string>
quelle
domainA,domainB'; use
für 'oder' aus '. Nach dem Wechsel zu on funktioniert es nicht.wget --recursive --level=inf --page-requisites --convert-links --html-extension --span-hosts=example.org,iana.org example.org
Ich verwende GNU Wget 1.13.4 unter Debian.--span-hosts --domains=example.org,iana.org
- ich denke--span-hosts
, muss ein Boolescher Wert sein, und dann geben Sie--domains
an, welche Hosts überspannt werden sollen.wget --recursive --level = inf --Seitenanforderungen --convert-links --html-extension -rH -DdomainA, domainB domainA
quelle
Möglicherweise müssen Sie robots.txt ignorieren (beachten Sie, dass dies möglicherweise gegen einige Nutzungsbedingungen verstößt und Sie das erforderliche Minimum herunterladen sollten). Siehe https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .
quelle
Erwägen Sie die Verwendung von HTTrack . Es gibt mehr Optionen beim Crawlen von Inhalten auf anderen Domänen als wget. Die Verwendung von wget mit --span-hosts, --domains und --accept war für meine Anforderungen nicht ausreichend, aber HTTrack hat den Job erledigt. Ich erinnere mich, dass das Festlegen von Umleitungsbeschränkungen für andere Domänen sehr hilfreich war.
quelle