Ich suche nach Social Network-Datensätzen (Twitter, Friendfeed, Facebook, LastFM usw.) für Klassifizierungsaufgaben, vorzugsweise im arff-Format.
Meine Suche über UCI und Google war bisher nicht erfolgreich ... irgendwelche Vorschläge?
quelle
Ich suche nach Social Network-Datensätzen (Twitter, Friendfeed, Facebook, LastFM usw.) für Klassifizierungsaufgaben, vorzugsweise im arff-Format.
Meine Suche über UCI und Google war bisher nicht erfolgreich ... irgendwelche Vorschläge?
Ein großer Index von Facebook - Seiten wurde erstellt und ist als Torrent verfügbar (Es ist ~ 2.8GB) http://btjunkie.org/torrent/Facebook-directory-personal-details-for-100-million-users/3979e54c73099d291605e7579b90838c2cd86a8e9575
Twitter-Datensätze sind auf Infochimps markiert: http://infochimps.com/tags/twitter
Ein lastfm-Datensatz ist unter http://mtg.upf.edu/node/1671 verfügbar
Besuchen Sie das Max-Planck-Institut. Sie haben auch mehrere Datensätze für OSNs gesammelt.
Gerade gefunden: 476 Millionen Twitter-Tweets (via @yarapavan ).
quelle
Wir haben 2009 und 2009 einen Twitter-Datensatz für Freunde von Nutzern erstellt. Weitere Informationen finden Sie hier: http://strict.dista.uninsubria.it/?p=364
quelle
Besuche kaggle.com, sie haben einige Wettbewerbe über soziale Netzwerke und sie verteilen Datensätze.
Auch Stanfords SNAP ist eine großartige Ressource. Und es hat Forschungsarbeiten zu starten.
quelle
Facebook Social Graph, Anwendungsinstallationen und Last.fm-Benutzer, Ereignisse, Gruppen unter http://odysseas.calit2.uci.edu/research/
Zwei Datensätze (gesammelt von April bis Mai 2009) mit repräsentativen Stichproben von ca. 1 Million Benutzern auf Facebook und einigen mit Anmerkungen versehenen Eigenschaften: Für jeden Stichprobenbenutzer sind die Freundesliste, die Datenschutzeinstellungen und die Netzwerkmitgliedschaft enthalten. Ein dritter Datensatz (gesammelt im Februar 2008) enthält ein zweigliedriges Diagramm, das Anwendungsinstallationen von Facebook-Benutzern darstellt. Ein vierter Datensatz mit täglich aktiven Benutzern und Anwendungsinstallationen über einen Zeitraum von 6 Monaten (gesammelt von September 2007 bis Februar 2008). Ein fünfter Datensatz, der eine repräsentative Stichprobe von Last.fm-Benutzern enthält, die mithilfe von Multigraph-Stichproben ermittelt wurden (Stand: Juli 2010).
quelle
Eine gute Ressource zum Auffinden von Datensätzen ist:
/ r / Datensätze auf Reddit.
Ein kurzer Blick auf diese Seite zeigt diese Quelle , die möglicherweise etwas für Sie Nützliches enthält.
quelle
In diesem Artikel wird ein Facebook-Datensatz verwendet , der hier verfügbar ist. Hier ist die Beschreibung der Autoren:
quelle