Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele:
9
Antworten:
R enthält viele Datensätze, und es scheint, als wäre es keine große Sache, die meisten der von Ihnen zitierten Beispiele mit wenigen Codezeilen zu reproduzieren. Möglicherweise ist das mlbench- Paket auch hilfreich, insbesondere synthetische Datensätze, die mit beginnen
mlbench.*
. Einige Abbildungen sind unten angegeben.Weitere Beispiele finden Sie in der Cluster- Task-Ansicht auf CRAN. Das fpc- Paket verfügt beispielsweise über einen integrierten Generator für "gesichtsförmige" Cluster-Benchmark-Datensätze (
rFace
).Ähnliche Überlegungen gelten für Python, wo Sie interessante Benchmark-Tests und Datensätze für das Clustering mit dem Scikit-Learn finden .
Das UCI Machine Learning Repository hostet auch viele Datensätze , aber Sie sollten Daten besser selbst mit der Sprache Ihrer Wahl simulieren.
quelle
Hier sind einige Datensätze, die genau für diese Aufgabe entwickelt wurden:
Die Fundamental Clustering Problem Suite von Ultsch
quelle
Dieser Benchmark für Spielzeugcluster enthält verschiedene Datensätze im ARFF-Format (kann leicht in CSV konvertiert werden), meist mit Grundwahrheitsbezeichnungen. Der Benchmark sollte die grundlegenden gewünschten Eigenschaften von Clustering-Algorithmen validieren. Die meisten Datensätze stammen aus den Clustering-Papieren wie:
quelle
ELKI wird mit einigen Datensätzen geliefert (überprüfen Sie auch die Komponententests, sie enthalten neben den Parametereinstellungen viel mehr als die auf der Website).
Es enthält auch einen ziemlich flexiblen Datengenerator.
quelle
Hier ist ein anpassbarer Clustergenerator. Es adressiert nur eine bestimmte Klasse von Datensätzen, kann aber sicherlich für Untersuchungen von Clusteralgorithmen verwendet werden.
Hier ist ein Beispiel für die Art von Clustern, die erstellt werden können:
Die Clusterzugehörigkeit wird in einer Textdatei gespeichert. Der Code ist Open Source unter MIT-Lizenz.
quelle
Dieses Matlab-Skript generiert 2D-Daten für das Clustering. Es werden mehrere Parameter akzeptiert, sodass die generierten Daten den Benutzeranforderungen entsprechen.
quelle
Ich kann nicht glauben, dass niemand Fisher's Iris-Daten erwähnt hat.
Ich glaube nicht, dass ich eine Clustering-Technik gesehen habe, bei der die Irisdaten nicht als Beispiel dienen.
Geben Sie in r einfach "iris" ein, um auf die Daten zuzugreifen.
Hier ist ein Beispiel für eine schöne (und typische) Irisdarstellung: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
quelle