Ich möchte ~ 22000 Punkte gruppieren. Viele Clustering-Algorithmen funktionieren besser mit besseren Anfangsschätzungen. Welche Tools können mir einen guten Eindruck von der rauen Form der Daten vermitteln?
Ich möchte in der Lage sein, meine eigene Entfernungsmetrik zu wählen, also wäre ein Programm, zu dem ich eine Liste paarweiser Entfernungen hinzufügen kann, in Ordnung. Ich möchte in der Lage sein, eine Region oder einen Cluster auf dem Display hervorzuheben und eine Liste der Datenpunkte in diesem Bereich zu erhalten.
Freie Software bevorzugt, aber ich habe bereits SAS und MATLAB.
Die Untersuchung von Clustering-Ergebnissen in großen Dimensionen kann in R mit den Paketen clusterfly und gcExplorer durchgeführt werden . Suchen Sie mehr hier .
quelle
(Monate später) Ein guter Weg, um sich k-Cluster vorzustellen und den Effekt verschiedener k zu sehen, besteht darin, einen Minimum-Spanning-Tree zu erstellen und die längsten Kanten zu betrachten. Beispielsweise,
Hier gibt es 10 Cluster mit 9 längsten Kanten 855 899 942 954 1003 1005 1069 1134 1267.
Für 9 Cluster reduzieren Sie die Cyan 855-Kante. für 8 die lila 899; und so weiter.
- Wayne, Gierige Algorithmen .
22000 Punkte, 242 Millionen paarweise Abstände, ~ 1 Gigabyte (float32): könnte passen.
Informationen zum Anzeigen eines hochdimensionalen Baums oder Diagramms in 2d finden Sie unter Multidimensionales Skalieren (ebenfalls aus Kruskal) und in der umfangreichen Literatur zur Dimensionsreduktion. In Dimensionen> 20 liegen die meisten Abstände jedoch in der Nähe des Medians, sodass die Dimensionsreduktion dort meiner Meinung nach nicht funktionieren kann.
quelle
Ich habe bei einem meiner Projekte gute Erfahrungen mit KNIME gemacht. Es ist eine ausgezeichnete Lösung für das schnelle Erkunden und Zeichnen von Daten. Darüber hinaus bietet es die nahtlose Integration von R- und Weka-Modulen.
quelle
Schauen Sie sich auch ELKI an , eine Open-Source-Data-Mining-Software. Wikimedia Commons hat eine Galerie mit Bildern, die mit ELKI erstellt wurden , von denen viele mit der Clusteranalyse zusammenhängen.
quelle
Schauen Sie sich Cluster 3.0 an . Ich bin mir nicht sicher, ob es alles tun wird, was Sie wollen, aber es ist ziemlich gut dokumentiert und lässt Sie aus ein paar Entfernungsmetriken auswählen. Die Visualisierung erfolgt über ein separates Programm namens Java TreeView ( Screenshot ).
quelle
GGobi sieht dafür interessant aus. Ein anderer Ansatz könnte darin bestehen, Ihre Ähnlichkeits- / inversen Distanzmatrizen als Netzwerk-Adjazenzmatrizen zu behandeln und diese in eine Netzwerk-Analyseroutine einzuspeisen (z. B. entweder igraph in R oder vielleicht Pajek). Mit diesem Ansatz würde ich experimentieren, indem ich die Knotenabstände an verschiedenen Schnittpunkten in eine binäre Bindung schneide.
quelle
Weka ist ein Open-Source-Programm für Data Mining (in Java verfügbar und erweiterbar), Orange ist ein Open-Source-Programm und eine Bibliothek für Data Mining und maschinelles Lernen (in Python geschrieben). Beide ermöglichen eine bequeme und effiziente visuelle Erkundung mehrdimensionaler Daten
quelle
Die kostenlose numerische Software DataMelt enthält eine Java-Bibliothek namens JMinHep. Bitte beachten Sie das Handbuch im Abschnitt "Datenclustering". Es bietet eine grafische Benutzeroberfläche zur Visualisierung mehrdimensionaler Datenpunkte in XY und zur Ausführung einer Reihe von Datencluster-Algorithmen.
quelle