Ich benötige ein Programm, um alle Webseiten unter eine Webseite zu bekommen. Die Website ist chinesisch, ich möchte all diese englischen Wörter rausholen. Dann kann ich alle Informationen extrahieren, die ich brauche. Irgendwelche Ideen dafür? Gibt es eine Software für diesen Zweck?
Wenn NEIN, würde ich gerne eine schreiben. Irgendwelche Vorschläge?
Vielen Dank.
Antworten:
Verwenden Sie zB
wget -r http://site.to.copy.com
Um alle Webseiten rekursiv auf Ihren lokalen Computer abzurufen (hoffentlich nicht zu groß ...), können Sie die Dateien anschließend durchsuchen oder was auch immer tun.quelle
wget
( Manpage hier ) kann auch gut als Crawler dienen, siehe da--recursive
Möglichkeit.quelle
Sie beschreiben so ziemlich einen Webcrawler (etwas, das eine Seite einnimmt, nach allen Links sucht, ihnen folgt usw.). Es gibt bereits Crawler-Implementierungen, Tools, die sich wie Crawler verhalten (z. B. Wget), und Fragen zu diesen hier auf Stack Overflow. Zum Beispiel...
https://stackoverflow.com/questions/102631/how-to-write-a-crawler
Sobald Sie etwas haben, das jede Seite besuchen kann, benötigen Sie Code, der die Seite analysiert und nach dem Text sucht, an dem Sie interessiert sind.
quelle
Keine PHP-Lösung, aber Sie können die verwenden Luchs Nur-Text-Webbrowser mit dem
-crawl
und-dump
Optionen, um alle Seiten einer Site zu besuchen und als Textdateien zu speichern. Sie können dann ein Skript verwenden, um die gewünschten Informationen daraus zu extrahieren.quelle