LinkedIn Web Scraping

11

Ich habe kürzlich ein neues R-Paket für die Verbindung mit der LinkedIn-API entdeckt. Leider scheint die LinkedIn-API zunächst ziemlich begrenzt zu sein. Beispielsweise können Sie nur Basisdaten zu Unternehmen abrufen, die von Daten zu Personen getrennt sind. Ich möchte Daten zu allen Mitarbeitern eines bestimmten Unternehmens abrufen, was Sie manuell auf der Website tun können, aber über die API nicht möglich sind.

import.io wäre perfekt, wenn es die LinkedIn-Paginierung erkennen würde (siehe Ende der Seite).

Kennt jemand Web-Scraping-Tools oder -Techniken, die auf das aktuelle Format der LinkedIn-Website anwendbar sind, oder Möglichkeiten, die API zu biegen, um flexiblere Analysen durchzuführen? Vorzugsweise in R oder webbasiert, aber sicherlich offen für andere Ansätze.

christopherlovell
quelle
2
Web Scraping LinkedIn verstößt gegen die Nutzungsbedingungen. Sehen LinkedIn "DOs" und "DON'Ts" - NICHT: "Verwenden Sie manuelle oder automatisierte Software, Geräte, Skriptroboter , andere Mittel oder Prozesse, um auf die Dienste oder andere zuzugreifen, sie zu" kratzen "," zu crawlen "oder" zu spinnen " verwandte Daten oder Informationen; "
Brian Spiering

Antworten:

10

Beautiful Soup wurde speziell für das Crawlen und Scraping von Websites entwickelt, ist jedoch für Python und nicht für R geschrieben:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Jagartner
quelle
2
Ich dachte nicht, dass schöne Suppe es dir erlaubt, über Seiten zu iterieren, es stellt sich heraus, dass du es kannst . Danke
christopherlovell
3

Scrapy ist eine großartige Python-Bibliothek, mit der Sie verschiedene Websites schneller durchsuchen und Ihre Codestruktur verbessern können. Nicht alle Websites können mit klassischen Tools analysiert werden, da sie die dynamische Erstellung von JS-Inhalten verwenden können. Für diese Aufgabe ist es besser, Selen zu verwenden (dies ist ein Testframework für Websites, aber auch ein großartiges Web-Scraping-Tool). Es gibt auch einen Python-WrapperFür diese Bibliothek steht zur Verfügung. In Google finden Sie einige Tricks, mit denen Sie Selenium in Scrapy verwenden und Ihren Code klar und übersichtlich gestalten können. Außerdem können Sie einige großartige Tools für die Scrapy- Bibliothek verwenden.

Ich denke, dass Selen für Linkedin ein besserer Schaber wäre als klassische Werkzeuge. Es gibt viel Javascript und dynamischen Inhalt. Wenn Sie eine Authentifizierung in Ihrem Konto vornehmen und alle verfügbaren Inhalte entfernen möchten, treten bei der klassischen Authentifizierung mit einfachen Bibliotheken wie Anfragen oder Urllib viele Probleme auf .

itdxer
quelle
1

Ich mag rvest in Kombination mit dem SelectorGadget-Chrome-Plug-In zur Auswahl relevanter Abschnitte.

Ich habe rvest verwendet und kleine Skripte erstellt, um durch Foren zu paginieren:

  1. Suchen Sie nach dem Objekt "Seite n von m"
  2. Auszug m
  3. Erstellen Sie basierend auf der Seitenstruktur eine Liste mit Links von 1 bis m (z. B. www.sample.com/page1).
  4. Iterieren Sie den Schaber durch die vollständige Liste der Links
Rglisch
quelle
0

Ich würde auch mit schöne Suppe gehen, wenn Sie Python kennen. Wenn Sie lieber Javascript / JQuery codieren (und mit node.js vertraut sind), möchten Sie möglicherweise CoffeeScript auschecken (siehe Tutorial ). Ich habe es bereits mehrmals erfolgreich zum Scraping von Webseiten verwendet.

Hannes
quelle
0

lxml ist eine nette Web-Scrapping-Bibliothek in Python. Schöne Suppe ist eine Hülle über lxml. Lxml ist also schneller als kratzige und schöne Suppe und hat eine viel einfachere Lernkurve.

Dies ist ein Beispiel für einen Scraper, den ich damit für ein persönliches Projekt erstellt habe, das über Webseiten iterieren kann.

Dawny33
quelle
0

BeautifulSoup funktioniert nicht auf LinkedIn. Scrappy verstößt gegen Richtlinien. Octoparse ist nur für Windows. Gibt es eine andere Art und Weise? Ich möchte ähnliche Personendaten für das Konto einer Person extrahieren. Bitte helfen Sie!

Chinmay Joshi
quelle
1
Bitte posten Sie dies als Kommentar oder stellen Sie eine neue Frage
christopherlovell
Dies sind wichtige Informationen, aber bitte entfernen Sie die darin enthaltene Frage, wenn dies eine Antwort sein soll.
Pithikos