Unten ist das, was ich bisher habe, das Chrom öffnet, zur URL geht und dann eine neue TXT-Datei öffnet. Ich muss den gesamten Text auf der Seite auswählen, kopieren, in die Datei BigData.txt einfügen und die Datei dann auf dem Desktop speichern. Ist das möglich?
CD C:\Program Files (x86)\Google\Chrome\Application\
start chrome.exe http://en.wikipedia.org/wiki/Big_data
CD C:\Users\TomD\Desktop
echo >BigData.txt
end;
Vielen Dank an alle
windows
command-line
script
batch
Tom Davidson
quelle
quelle
Antworten:
Sie sprechen wirklich von Web-Scraping , was allein mit Batch-Dateien schwierig sein wird, insbesondere wenn Sie nur einen bestimmten Teil einer Seite suchen.
Wenn Sie die gesamte Webseite herunterladen möchten, empfehlen wir Ihnen eine Windows-Version von wget oder curl . Beide können problemlos in ein Batch-Skript integriert werden und laden den HTML-Code für eine Webseite herunter. Beachten Sie, dass der eigentliche Grund für die Verwendung dieser Tools anstelle von Chrome darin besteht, dass es sich im Gegensatz zu einem GUI-basierten Browser wie Chrome um Befehlszeilentools handelt.
Sobald Sie den HTML-Code haben, müssen Sie wahrscheinlich eine echte Skriptsprache verwenden, um die HTML-Datei zu analysieren und nur den Haupttext des Artikels zu extrahieren.
quelle
Laden Sie zuerst "wget.exe" herunter und speichern Sie es im selben Ordner wie Ihre .bat-Datei (oder in einem beliebigen Ordner in Ihrem Pfad).
Dann benutze:
Veränderung:
www.wikipedia.com zum Webseitenordner
index.html in die Webseitendatei
C: \ users \% username% \ Desktop in einen Ordner auf Ihrem PC
WiKiPeDiA.txt zu der Datei, die in dem zuvor definierten Ordner erstellt werden soll
SCHRITT FÜR SCHRITT
Zunächst speichert der Code einige Variablen. Dann lädt wget die Datei der Webseite in den Ordner% cd% herunter (hier würde es "www.wikipedia.com/index.html" herunterladen).
Anschließend wird der Inhalt der heruntergeladenen HTML-Datei in einer Nur-Text-Datei gespeichert (hier wird eine neue Datei mit dem Namen "WiKiPeDiA" in "C: \ users \% username% \ Desktop" (dem Desktop des aktuellen Benutzers) erstellt .TXT").
Schließlich wird die Web-Seitendatei gelöscht.
Hinweis:
Wenn Sie den Inhalt der Datei mit den Tags speichern möchten, ist dies der Code.
Wenn Sie den vom Browser angezeigten Text speichern möchten, müssen Sie ihn analysieren und filtern, bevor Sie ihn in der Datei speichern.
Das habe ich noch nie gemacht, aber das würde ich machen:
Hoffe es hat geholfen!
quelle