Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell auf der Website tun können, aber über die API nicht möglich sind.
import.io wäre perfekt, wenn es die LinkedIn-Paginierung erkennen würde (siehe Ende der Seite).
Kennt jemand Web-Scraping-Tools oder -Techniken, die auf das aktuelle Format der LinkedIn-Website anwendbar sind, oder Möglichkeiten, die API zu biegen, um flexiblere Analysen durchzuführen? Vorzugsweise in R oder webbasiert, aber sicherlich offen für andere Ansätze.
quelle
Antworten:
Beautiful Soup wurde speziell für das Crawlen und Scraping von Websites entwickelt, ist jedoch für Python und nicht für R geschrieben:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
quelle
Scrapy ist eine großartige Python-Bibliothek, mit der Sie verschiedene Websites schneller durchsuchen und Ihre Codestruktur verbessern können. Nicht alle Websites können mit klassischen Tools analysiert werden, da sie die dynamische Erstellung von JS-Inhalten verwenden können. Für diese Aufgabe ist es besser, Selen zu verwenden (dies ist ein Testframework für Websites, aber auch ein großartiges Web-Scraping-Tool). Es gibt auch einen Python-WrapperFür diese Bibliothek steht zur Verfügung. In Google finden Sie einige Tricks, mit denen Sie Selenium in Scrapy verwenden und Ihren Code klar und übersichtlich gestalten können. Außerdem können Sie einige großartige Tools für die Scrapy- Bibliothek verwenden.
Ich denke, dass Selen für Linkedin ein besserer Schaber wäre als klassische Werkzeuge. Es gibt viel Javascript und dynamischen Inhalt. Wenn Sie eine Authentifizierung in Ihrem Konto vornehmen und alle verfügbaren Inhalte entfernen möchten, treten bei der klassischen Authentifizierung mit einfachen Bibliotheken wie Anfragen oder Urllib viele Probleme auf .
quelle
Ich mag rvest in Kombination mit dem SelectorGadget-Chrome-Plug-In zur Auswahl relevanter Abschnitte.
Ich habe rvest verwendet und kleine Skripte erstellt, um durch Foren zu paginieren:
quelle
Ich würde auch mit schöne Suppe gehen, wenn Sie Python kennen. Wenn Sie lieber Javascript / JQuery codieren (und mit node.js vertraut sind), möchten Sie möglicherweise CoffeeScript auschecken (siehe Tutorial ). Ich habe es bereits mehrmals erfolgreich zum Scraping von Webseiten verwendet.
quelle
lxml ist eine nette Web-Scrapping-Bibliothek in Python. Schöne Suppe ist eine Hülle über lxml. Lxml ist also schneller als kratzige und schöne Suppe und hat eine viel einfachere Lernkurve.
Dies ist ein Beispiel für einen Scraper, den ich damit für ein persönliches Projekt erstellt habe, das über Webseiten iterieren kann.
quelle
BeautifulSoup funktioniert nicht auf LinkedIn. Scrappy verstößt gegen Richtlinien. Octoparse ist nur für Windows. Gibt es eine andere Art und Weise? Ich möchte ähnliche Personendaten für das Konto einer Person extrahieren. Bitte helfen Sie!
quelle
Hier teile ich meine erfolgreichen Erfahrungen.
Octoparse ist ein großartiges kostenloses Web-Scraping-Tool . Ich habe es verwendet, um Linkedin-Daten erfolgreich zu kratzen, und hier ist ein detailliertes Video-Tutorial, um Daten aus Linkedin zu extrahieren .
quelle