Holen Sie sich jede Seite unter einer Website

0

Ich benötige ein Programm, um alle Webseiten unter eine Webseite zu bekommen. Die Website ist chinesisch, ich möchte all diese englischen Wörter rausholen. Dann kann ich alle Informationen extrahieren, die ich brauche. Irgendwelche Ideen dafür? Gibt es eine Software für diesen Zweck?

Wenn NEIN, würde ich gerne eine schreiben. Irgendwelche Vorschläge?

Vielen Dank.

Ryan
quelle
spidersoft.com wenn kein wget vorhanden
DFectuoso

Antworten:

10

Verwenden Sie zB wget -r http://site.to.copy.com Um alle Webseiten rekursiv auf Ihren lokalen Computer abzurufen (hoffentlich nicht zu groß ...), können Sie die Dateien anschließend durchsuchen oder was auch immer tun.


quelle
Was ich vorschlagen würde. Warum noch eine Mausefalle bauen?
Carl Smotricz
2
Vielleicht möchten Sie auch das Flag "--convert-links" verwenden, damit Sie lokal browsen können ...
AJ.
Je nachdem, wie viele Seiten Sie herunterladen möchten, müssen Sie möglicherweise auch die Option --limit-rate angeben, um eine Überlastung des Servers zu vermeiden.
3

wget ( Manpage hier ) kann auch gut als Crawler dienen, siehe da --recursive Möglichkeit.

Wim
quelle
3

Sie beschreiben so ziemlich einen Webcrawler (etwas, das eine Seite einnimmt, nach allen Links sucht, ihnen folgt usw.). Es gibt bereits Crawler-Implementierungen, Tools, die sich wie Crawler verhalten (z. B. Wget), und Fragen zu diesen hier auf Stack Overflow. Zum Beispiel...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Sobald Sie etwas haben, das jede Seite besuchen kann, benötigen Sie Code, der die Seite analysiert und nach dem Text sucht, an dem Sie interessiert sind.

Martin Peck
quelle
1

Keine PHP-Lösung, aber Sie können die verwenden Luchs Nur-Text-Webbrowser mit dem -crawl und -dump Optionen, um alle Seiten einer Site zu besuchen und als Textdateien zu speichern. Sie können dann ein Skript verwenden, um die gewünschten Informationen daraus zu extrahieren.

Ken Keenan
quelle