Suche nach künstlichen 2D-Daten zur Demonstration der Eigenschaften von Clustering-Algorithmen

9

Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele:

steffen
quelle
Ich
stimme
Eine ähnliche Frage in Zeilen bestimmter Datensätze wurde hier geschlossen: stats.stackexchange.com/questions/38928/…
Leichenwagen
Für SPSS habe ich ein Cluster-generierendes Makro geschrieben (siehe meine Seite, siehe "Cluster generieren"). Es werden jedoch keine prätentiösen Formen wie Ringe oder Spiralen erzeugt.
ttnphns

Antworten:

11

R enthält viele Datensätze, und es scheint, als wäre es keine große Sache, die meisten der von Ihnen zitierten Beispiele mit wenigen Codezeilen zu reproduzieren. Möglicherweise ist das mlbench- Paket auch hilfreich, insbesondere synthetische Datensätze, die mit beginnen mlbench.*. Einige Abbildungen sind unten angegeben.

Geben Sie hier die Bildbeschreibung ein

Weitere Beispiele finden Sie in der Cluster- Task-Ansicht auf CRAN. Das fpc- Paket verfügt beispielsweise über einen integrierten Generator für "gesichtsförmige" Cluster-Benchmark-Datensätze ( rFace).

Geben Sie hier die Bildbeschreibung ein

Ähnliche Überlegungen gelten für Python, wo Sie interessante Benchmark-Tests und Datensätze für das Clustering mit dem Scikit-Learn finden .

Das UCI Machine Learning Repository hostet auch viele Datensätze , aber Sie sollten Daten besser selbst mit der Sprache Ihrer Wahl simulieren.

chl
quelle
2

Dieser Benchmark für Spielzeugcluster enthält verschiedene Datensätze im ARFF-Format (kann leicht in CSV konvertiert werden), meist mit Grundwahrheitsbezeichnungen. Der Benchmark sollte die grundlegenden gewünschten Eigenschaften von Clustering-Algorithmen validieren. Die meisten Datensätze stammen aus den Clustering-Papieren wie:

  • BIRKE - Zhang, Tian, ​​Raghu Ramakrishnan und Miron Livny. "BIRCH: Eine effiziente Datenclustermethode für sehr große Datenbanken." ACM SIGMOD-Aufzeichnung. Vol. 25. Nr. 2. ACM, 1996.
  • Heilung - Guha, Sudipto, Rajeev Rastogi und Kyuseok Shim. "CURE: Ein effizienter Clustering-Algorithmus für große Datenbanken." ACM SIGMOD-Aufzeichnung. Vol. 27. Nr. 2. ACM, 1998.
  • Chamäleon - Karypis, George, Eui-Hong Han und Vipin Kumar. "Chamäleon: Hierarchisches Clustering mithilfe dynamischer Modellierung." Computer 32.8 (1999): 68 & ndash; 75.
  • Die Fundamental Clustering Problem Suite - Ultsch, A.: Clustering mit SOM: U * C, In Proc. Workshop über selbstorganisierende Karten, Paris, Frankreich, (2005), S. 75-82
  • MOCK - Handl, Julia und Joshua Knowles. "Ein evolutionärer Ansatz für multiobjektives Clustering." Evolutionary Computation, IEEE Transactions on 11.1 (2007): 56-76.
  • Robuste pfadbasierte spektrale Clusterbildung - Chang, Hong und Dit-Yan Yeung. "Robustes pfadbasiertes spektrales Clustering." Pattern Recognition 41.1 (2008): 191 & ndash; 203.

Karypis-Daten Cluto-Daten

Tombart
quelle
1

ELKI wird mit einigen Datensätzen geliefert (überprüfen Sie auch die Komponententests, sie enthalten neben den Parametereinstellungen viel mehr als die auf der Website).

Es enthält auch einen ziemlich flexiblen Datengenerator.

Hat aufgehört - Anony-Mousse
quelle
1

Hier ist ein anpassbarer Clustergenerator. Es adressiert nur eine bestimmte Klasse von Datensätzen, kann aber sicherlich für Untersuchungen von Clusteralgorithmen verwendet werden.

Hier ist ein Beispiel für die Art von Clustern, die erstellt werden können:

http://i.stack.imgur.com/vrCG5.png

Die Clusterzugehörigkeit wird in einer Textdatei gespeichert. Der Code ist Open Source unter MIT-Lizenz.

Felix Dobslaw
quelle
1

Dieses Matlab-Skript generiert 2D-Daten für das Clustering. Es werden mehrere Parameter akzeptiert, sodass die generierten Daten den Benutzeranforderungen entsprechen.

gefälscht
quelle
0

Ich kann nicht glauben, dass niemand Fisher's Iris-Daten erwähnt hat.

Ich glaube nicht, dass ich eine Clustering-Technik gesehen habe, bei der die Irisdaten nicht als Beispiel dienen.

Geben Sie in r einfach "iris" ein, um auf die Daten zuzugreifen.

Hier ist ein Beispiel für eine schöne (und typische) Irisdarstellung: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

Genorama
quelle