Weiß jemand, ob und wie es möglich ist, Google programmgesteuert zu durchsuchen - insbesondere, wenn es eine Java-API dafür gibt?
105
Weiß jemand, ob und wie es möglich ist, Google programmgesteuert zu durchsuchen - insbesondere, wenn es eine Java-API dafür gibt?
Antworten:
Einige Fakten:
Google bietet eine öffentliche Such-Webservice-API an, die JSON zurückgibt : http://ajax.googleapis.com/ajax/services/search/web . Dokumentation hier
Java bietet
java.net.URL
undjava.net.URLConnection
HTTP-Anfragen zu feuern und zu verarbeiten.JSON kann in Java mithilfe einer beliebigen Java-JSON-API in ein vollwertiges Javabean-Objekt konvertiert werden. Eines der besten ist Google Gson .
Jetzt rechne nach:
Mit dieser Javabean-Klasse, die die wichtigsten von Google zurückgegebenen JSON-Daten darstellt (es werden tatsächlich mehr Daten zurückgegeben, aber es bleibt Ihnen überlassen, diesen Javabean-Code entsprechend zu erweitern):
Siehe auch:
java.net.URLConnection
Update seit November 2010 (2 Monate nach der obigen Antwort), der öffentliche Such-Webservice ist veraltet (und der letzte Tag, an dem der Service angeboten wurde, war der 29. September 2014). Am besten fragen Sie jetzt http://www.google.com/search direkt zusammen mit einem ehrlichen Benutzeragenten ab und analysieren das Ergebnis mit einem HTML-Parser . Wenn Sie den Benutzeragenten weglassen, erhalten Sie eine 403 zurück. Wenn Sie im Benutzeragenten liegen und einen Webbrowser (z. B. Chrome oder Firefox) simulieren, erhalten Sie eine viel größere HTML-Antwort zurück, was eine Verschwendung von Bandbreite und Leistung darstellt.
Hier ist ein Kickoff-Beispiel mit Jsoup als HTML-Parser:
quelle
Um Google mithilfe der API zu durchsuchen, sollten Sie die benutzerdefinierte Google-Suche verwenden . Das Scraping von Webseiten ist nicht zulässig
In Java können Sie die CustomSearch API Client Library für Java verwenden
Die Maven-Abhängigkeit ist:
Beispiel für die Codesuche mit der Google CustomSearch API-Clientbibliothek
Wie Sie sehen, müssen Sie einen API-Schlüssel anfordern und eine eigene Suchmaschinen-ID einrichten, cx .
Derzeit (Datum der Antwort) erhalten Sie 100 API-Anrufe pro Tag kostenlos, dann teilt Google gerne Ihren Gewinn.
quelle
In den Nutzungsbedingungen von Google können wir lesen:
5.3 Sie erklären sich damit einverstanden, auf keinen anderen Weg als über die von Google bereitgestellte Schnittstelle auf einen der Dienste zuzugreifen (oder zu versuchen, darauf zuzugreifen), es sei denn, Sie wurden ausdrücklich in einer separaten Vereinbarung mit Google dazu berechtigt. Sie erklären sich ausdrücklich damit einverstanden, nicht auf automatisierte Weise (einschließlich der Verwendung von Skripten oder Webcrawlern) auf einen der Dienste zuzugreifen (oder zu versuchen, darauf zuzugreifen), und stellen sicher, dass Sie die Anweisungen in den auf den Diensten enthaltenen robots.txt-Dateien einhalten .
Ich denke, die Antwort lautet Nein. Darüber hinaus ist die SOAP-API nicht mehr verfügbar
quelle
Die Google-Nutzungsbedingungen wurden im April 2014 etwas gelockert. Jetzt heißt es:
"Missbrauchen Sie unsere Dienste nicht. Beeinträchtigen Sie beispielsweise unsere Dienste nicht und versuchen Sie nicht, mit einer anderen Methode als der Schnittstelle und den von uns bereitgestellten Anweisungen auf sie zuzugreifen."
Die Passage über "automatisierte Mittel" und Skripte ist also jetzt weg. Es ist offensichtlich immer noch nicht die gewünschte (von Google) Art, auf ihre Dienste zuzugreifen, aber ich denke, es ist jetzt formal offen für die Interpretation dessen, was genau eine "Schnittstelle" ist und ob es einen Unterschied macht, wie genau zurückgegebenes HTML verarbeitet wird ( gerendert oder analysiert). Wie auch immer, ich habe eine Java-Convenience-Bibliothek geschrieben und es liegt an Ihnen, zu entscheiden, ob Sie sie verwenden oder nicht:
https://github.com/afedulov/google-web-search
quelle
In der Tat gibt es eine API, um Google programmgesteuert zu durchsuchen. Die API wird als benutzerdefinierte Google-Suche bezeichnet. Für die Verwendung dieser API benötigen Sie einen Google Developer API-Schlüssel und einen cx-Schlüssel. Ein einfaches Verfahren für den Zugriff auf die Google-Suche über das Java-Programm wird in meinem Blog erläutert.
Jetzt tot, hier ist der Link zur Wayback-Maschine .
quelle
Als Alternative zur Antwort von BalusC können Sie dieses Paket verwenden, da es veraltet ist und Sie Proxys verwenden müssen. Codebeispiel:
Bibliothek auf GitHub
quelle
Angesichts dieser Änderungen der Nutzungsbedingungen im letzten Jahr haben wir eine API erstellt, die den Zugriff auf die Google-Suche ermöglicht. Es war nur für unseren eigenen Gebrauch, aber nach einigen Anfragen beschlossen wir, es zu öffnen. Wir planen, in Zukunft weitere Suchmaschinen hinzuzufügen!
Wenn jemand nach einer einfachen Möglichkeit sucht, Suchergebnisse zu implementieren / zu erfassen, können Sie sich kostenlos anmelden und die REST-API ausprobieren: https://searchapi.io
Es gibt JSON-Ergebnisse zurück und sollte mit den detaillierten Dokumenten einfach zu implementieren sein.
Es ist eine Schande, dass Bing und Yahoo in dieser Hinsicht bei Google meilenweit voraus sind. Ihre APIs sind nicht billig, aber zumindest verfügbar.
quelle
Nur eine Alternative. Das Durchsuchen von Google und das Parsen der Ergebnisse kann auch generisch mit einem beliebigen HTML-Parser wie Jsoup in Java erfolgen. Es folgt der Link zum genannten Beispiel.
https://www.codeforeach.com/java/example-how-to-search-google-using-java
quelle