Extrahieren von Informationen von der Webseite in einem bestimmten Intervall

1

Ich habe ein Problem. Ich muss so etwas wie 800 Datensätze extrahieren und es würde Tage dauern, um das manuell zu tun.

Die Informationen können durch Einfügen weniger Felder in das Formular (immer dasselbe) und dann einer Variablen in einem bestimmten Intervall erhalten werden. Die Seite übergibt keine Parameter im Klartext, daher kann ich nicht einfach ein sehr einfaches Tool verwenden, das die Parametervariable inkrementiert.

Gibt es ein gutes Tool, das mir dabei helfen könnte?

Jarek
quelle
Ein Beispiel wäre sehr hilfreich. Wo geben Sie die Variable ein?
LaLeX
Ich würde Curl in einem Bash-Skript verwenden, so wie es sich anhört. Wie meinst du damit, dass die Daten nicht im Klartext übergeben werden? Wird es mit einer Postanfrage bestanden? Was ist auch Ihr Betriebssystem?
0 x 90
Link nahlizenidokn.cuzk.cz/VyberParcelu.aspx - Entschuldigung für die Sprache - Sie füllen zum Beispiel das erste Feld aus. Brno zweites Zidenice drittes ist dieses Intervall, also möchte ich zum Beispiel Daten von 6200 bis 6500 erhalten
Jarek
Ihr Formular funktioniert mit diesen Werten nicht. Besser es als Bild zeigen.
Harrymc
Wenn Sie den HTML-Code, den die Site generiert, mithilfe der Quelltext-Ansichtsfunktion Ihres Browsers veröffentlichen können. Andernfalls wenden Sie sich an den Site-Administrator und fragen Sie, ob er die Datenbankdaten an Sie exportieren oder Ihnen Leserechte und Zugriff auf die Datenbank gewähren kann.
Nelaaro

Antworten:

3

Wenn Sie keine Angst vor dem Programmieren haben, gibt es ein brillantes Sellenium-Framework. Kurz gesagt, Sie können einen Browser automatisieren und imitieren, indem Sie sein Verhalten auf einer Seite programmieren. http://code.google.com/p/selenium/?redir=1

Darek
quelle
1

Dobrý den,

Hey, es scheint, dass sie einige SOAP-Dienste haben. Wahrscheinlich könnten Sie die XML-RPC-Bibliothek von jeder Computersprache aus verwenden, um auf die Daten zuzugreifen. Ich fand diese wsdl https://katastr.cuzk.cz/static/wsdl/sestavy.wsdl, aber sie haben möglicherweise andere ...

Celebdor
quelle
0

Sehen Sie sich an, wie Sie ein Skript mit Perl Mechanize oder Ruby Mechanize schreiben. Vielleicht würde sogar AutoHotKey, ein Programm zum Erstellen von Makros, für Sie funktionieren.

pbsmind
quelle