Öffentlich verfügbare Datasets / APIs für soziale Netzwerke

26

Als Erweiterung unserer umfangreichen Liste öffentlich verfügbarer Datasets würde ich gerne wissen, ob es eine Liste öffentlich verfügbarer Datasets / Crawler-APIs für soziale Netzwerke gibt. Es wäre sehr schön, wenn neben einem Link zum Datensatz / API auch Merkmale der verfügbaren Daten hinzugefügt würden. Solche Informationen sollten und sind nicht beschränkt auf:

  • der Name des sozialen Netzwerks;
  • Welche Art von Benutzerinformationen werden bereitgestellt (Beiträge, Profil, Freundschaftsnetzwerk, ...)?
  • ob es erlaubt, seinen Inhalt über eine API zu crawlen (und Rate: 10 / min, 1k / Monat, ...);
  • ob es einfach einen Schnappschuss des gesamten Datensatzes liefert.

Anregungen und weitere Merkmale sind sehr willkommen.

Rubens
quelle

Antworten:

20

Ein paar Worte zu den APIs sozialer Netzwerke. Vor ungefähr einem Jahr schrieb ich eine Rezension der APIs der populären sozialen Netzwerke für Forscher. Leider ist es in russischer Sprache. Hier ist eine Zusammenfassung:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

  • Fast alle Daten zu Tweets / Texten und Benutzern sind verfügbar.
  • Mangel an soziodemografischen Daten;
  • Tolle Streaming-API: nützlich für die Echtzeit-Textverarbeitung;
  • viele Wrapper zum Programmieren von Sprachen;
  • Das Abrufen der Netzwerkstruktur (Verbindungen) ist möglich, aber zeitaufwändig (1 Anforderung pro 1 Minute).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

  • Ratenbegrenzung: ca. 1 Anfrage pro Sekunde;
  • gut dokumentiert, Sandkasten vorhanden;
  • FQL (SQL-like) und «regular Rest» Graph API;
  • vorhandene Freundschaftsdaten und soziodemografische Merkmale;
  • Viele Daten sind jenseits des Ereignishorizonts : Nur die Daten von Freunden und Freunden von Freunden sind mehr oder weniger vollständig. Es kann fast nichts über zufällige Benutzer herausgefunden werden.
  • Einige seltsame API-Fehler, und es sieht so aus, als würde sich niemand darum kümmern (z. B. einige Funktionen, die über FQL, aber nicht über das Synonym Graph API verfügbar sind).

Instagram ( http://instagram.com/developer/ )

  • Tarifgrenzen: 5000 Anfragen pro Stunde;
  • Echtzeit-API (wie Streaming-API für Twitter, jedoch mit Fotos) - die Verbindung ist etwas schwierig: Rückrufe werden verwendet;
  • Mangel an soziodemografischen Daten;
  • Fotos, Filterdaten vorhanden;
  • unerwartete Unvollkommenheiten (z. B. ist es möglich, nur 150 Kommentare zum Posten / Foto zu sammeln).

Foursquare ( https://developer.foursquare.com/overview/ )

  • Tarifgrenzen: 5000 Anfragen pro Stunde;
  • Königreich der geosozialen Daten :)
  • Aufgrund von Datenschutzproblemen von Recherchen ausgeschlossen. Um Eincheckdaten zu sammeln, muss ein zusammengesetzter Parser erstellt werden, der gleichzeitig mit 4sq-, bit.ly- und twitter-APIs arbeitet.
  • wieder: Mangel an soziodemografischen Daten.

Google+ ( https://developers.google.com/+/api/latest/ )

  • ca. 5 Anfragen pro Sekunde (versuchen Sie zu verifizieren);
  • Hauptmethoden: Aktivitäten und Menschen;
  • Wie bei Facebook sind viele personenbezogene Daten für zufällige Nutzer verborgen.
  • Fehlen von Benutzerverbindungsdaten.

Und außer Konkurrenz: Ich habe soziale Netzwerke für russische Leser überprüft, und das Netzwerk Nr. 1 ist hier vk.com . Es ist in viele Sprachen übersetzt, aber nur in Russland und anderen GUS-Ländern beliebt. Link zu API-Dokumenten: http://vk.com/dev/ . Und aus meiner Sicht ist es die beste Wahl für die Homebrew-Social-Media-Forschung. Zumindest in Russland. Deshalb:

  • Ratenbegrenzung: 3 Anfragen pro Sekunde;
  • öffentlicher Text und Mediendaten verfügbar;
  • verfügbare soziodemografische Daten: für zufällige Nutzer liegt die Verfügbarkeit bei etwa 60-70%;
  • Verbindungen zwischen Benutzern sind ebenfalls verfügbar: Fast alle Freundschaftsdaten für zufällige Benutzer sind verfügbar.
  • Einige spezielle Methoden: Zum Beispiel gibt es eine Methode, um den Online- / Offline-Status für den genauen Benutzer in Echtzeit abzurufen, und man könnte einen Zeitplan für seine Zielgruppe erstellen.
Sobach
quelle
1
Schiere Großartigkeit! Eigentlich hatte ich erwartet, dass sich so etwas in viele Antworten auflöst, und Sie kamen mit dem Ganzen: D Danke für die Antwort. Gute Arbeit! :)
Rubens
1
Ich habe den Bereich LinkedIn, YouTube, Secret hinter mir gelassen. Vielleicht andere regionale Netzwerke (QQ?). Und würde mich über Infos freuen.
Sobach
8

Es ist an sich kein soziales Netzwerk, aber Stackexchange veröffentlicht den gesamten Datenbankspeicherauszug in regelmäßigen Abständen:

Sie können einige soziale Informationen extrahieren, indem Sie analysieren, welche Benutzer sich gegenseitig fragen und antworten. Eine nette Sache ist, dass Sie, da die Posts mit Tags versehen sind, Sub-Communities leicht analysieren können.

Kleine Bobby Tische
quelle
6

Eine gute Liste öffentlich zugänglicher Datensätze sozialer Netzwerke finden Sie auf der Website des Stanford Network Analysis Project:

SNAP-Datasets

Die Website enthält Daten von sozialen Netzwerken im Internet (Facebook, Twitter, Google Plus), Zitationsnetzwerke für akademische Zeitschriften, Mitkaufnetzwerke von Amazon und verschiedene andere Arten von Netzwerken. Sie haben gerichtete, ungerichtete und zweigeteilte Diagramme und alle Datensätze sind Schnappschüsse, die in komprimierter Form heruntergeladen werden können.

Ben
quelle
5

Ein Beispiel aus Deutschland: Xing eine Seite ähnlich wie LinkedIn, aber auf deutschsprachige Länder beschränkt.

Link zur Entwicklerzentrale: https://dev.xing.com/overview

Bietet Zugriff auf: Benutzerprofile, Gespräche zwischen Benutzern (auf den Benutzer selbst beschränkt), Stellenanzeigen, Kontakte und Kontakte von Kontakten, Nachrichten aus dem Netzwerk und einige Geolocation-APIs.

Ja, es hat eine API, aber ich habe keine Informationen über die Rate gefunden. Es scheint mir jedoch, dass einige Informationen auf die Zustimmung des Benutzers beschränkt sind.

Christian Sauer
quelle
4

Das Network Repository ( http://networkrepository.com ) verfügt über unzählige soziale Netzwerke, Webgrafiken, Bio- und Hirnnetzwerke usw. Das Beste ist, dass es auch interaktive visuelle Analysewerkzeuge zum Vergleichen und Erkunden der verschiedenen sozialen Netzwerke gibt.

Stein
quelle
2

Eine kleine Sammlung solcher Links finden Sie hier . Viele von ihnen sind soziale Graphen.

Lgylym
quelle
Ich danke Ihnen vielmals für das Veröffentlichen dieser Referenz, aber ich hatte erwartet, dass die Antworten hier auf einen öffentlich verfügbaren Datensatz / eine öffentlich zugängliche API für ein soziales Netzwerk verweisen und auch beschreiben, was von einer solchen Quelle bereitgestellt wird (entweder die Downloadrate der Beiträge oder welche Art von Informationen) über Benutzer). Wie Ihre Antwort lautet, würde ich es sehr begrüßen, wenn wir öffentlich verfügbare Datensätze auflisten würden.
Rubens