Klassische Datensätze für die Netzwerkanalyse

10

Es gibt mehrere klassische Datensätze für Klassifizierungs- / Regressionsaufgaben des maschinellen Lernens. Die beliebtesten sind:

Aber kennt jemand ähnliche Datensätze für die Netzwerkanalyse / Graphentheorie? Konkreter - Ich suche nach Gold-Standarddatensätzen zum Vergleichen / Bewerten / Lernen:

  1. Zentralitätsmaßnahmen;
  2. Netzwerk-Clustering-Algorithmen.

Ich brauche keine große Liste öffentlich verfügbarer Netzwerke / Grafiken, sondern ein paar wirklich wichtige Datensätze.

BEARBEITEN:

Es ist ziemlich schwierig, genaue Funktionen für den "Goldstandard-Datensatz" bereitzustellen, aber hier sind einige Gedanken. Ich denke, ein echter klassischer Datensatz sollte diese Kriterien erfüllen:

  • Mehrere Referenzen in Artikeln und Lehrbüchern;
  • Aufnahme in bekannte Netzwerkanalyse-Softwarepakete;
  • Ausreichende Existenzzeit;
  • Verwendung in einer Reihe von Kursen zur Graphanalyse.

In Bezug auf mein Interessengebiet benötige ich auch gekennzeichnete Klassen für Eckpunkte und / oder vorberechnete (oder vordefinierte) "Autoritätswerte" (dh Zentralitätsschätzungen). Nachdem ich diese Frage gestellt hatte, suchte ich weiter und hier sind einige geeignete Beispiele:

  • Zacharys Karate Club : 1977 eingeführt, mehr als 1,5.000 Mal zitiert (laut Google Scholar), haben Scheitelpunkte das Attribut Fraktion (das zum Clustering verwendet werden kann).
  • Erdos Collaboration Network : Leider habe ich dieses Netzwerk nicht in Form einer Datendatei gefunden, aber es ist ziemlich berühmt. Wenn jemand das Netzwerk mit den Spezialisierungsdaten von Mathematikern bereichert, kann es auch zum Testen von Clustering-Algorithmen verwendet werden.
Sobach
quelle
1
Ich denke, Sie könnten diese Frage verbessern, indem Sie den "Goldstandard-Datensatz" objektiver definieren. Was macht es "must-know"? Sollte in einer Reihe von Lehrbüchern darauf verwiesen werden? In einer Reihe von veröffentlichten Modellen verwendet? Andernfalls sind die Antworten subjektiv UND ändern sich im Laufe der Zeit. Eine schlechte Kombination hier.
Air

Antworten:

5

Was Sie suchen, finden Sie in KONECT (die Website ist nicht erreichbar, während ich dies schreibe, aber es sollte bald behoben sein!). Es ist fast die umfassendste Datenerfassung für die Netzwerkanalyse. Aber die Frage ist, welches ist mehr Standard zu verwenden?

Nun, es gibt keine klare Antwort außer Zacharys Karate Club!

Wenn Sie eine Literaturübersicht über Community Detection-Algorithmen durchführen, werden Sie feststellen, dass fast alle leuchtenden Papiere unterschiedliche Netzwerke verwenden. Mein Vorschlag geht durch, was Andrea Lancichinetti und Santo Fortunato für das Benchmarking von Grafiken getan haben. Sie schlugen einige Algorithmen zur Erzeugung von Benchmark-Graphen vor, z . B. diesen .

Ich hoffe es hilft :)

Kasra Manshaei
quelle
Sie können dies über Wayback-Maschine finden, es ist Ihr bester Freund web.archive.org/web/20150402165739/http://konect.uni-koblenz.de/…
Albert
4

Vielleicht können Sie hier überprüfen - http://snap.stanford.edu/data/

Für jeden Datensatz sehen Sie auch Referenzen der Werke, in denen sie verwendet wurden

Alexey Grigorev
quelle
1

Das einzige, was ich weiß, sind Benchmark-Daten für Graph-Datenbanken wie Neo4j.

Möglicherweise finden Sie ähnliche Links: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

Hier finden Sie Daten zum Testen der Netzwerkanalyse und der Graphentheorie.

Darüber hinaus können Sie mit der API von Twitter / Facebook spielen, um Ihre eigenen Daten zu sammeln. Dies ist auch ein Vorschlag für den Fall, dass Sie die gesuchten Daten nicht finden.

Adesantos
quelle
Danke, aber es ist nicht genau das, wonach ich suche. Weitere Informationen finden Sie unter Update.
Sobach