Ich benutze R, um K-bedeutet Clustering zu machen. Ich verwende 14 Variablen, um K-means auszuführen
- Was ist ein hübscher Weg, um die Ergebnisse von K-means zu zeichnen?
- Gibt es bereits Implementierungen?
- Erschweren 14 Variablen das Zeichnen der Ergebnisse?
Ich habe etwas namens GGcluster gefunden, das cool aussieht, sich aber noch in der Entwicklung befindet. Ich habe auch etwas über Sammon-Mapping gelesen, es aber nicht sehr gut verstanden. Wäre das eine gute Option?
Antworten:
Ich würde den Silhouettenplot dazu verschieben, da es unwahrscheinlich ist, dass Sie viele verwertbare Informationen aus Paarplots erhalten, wenn die Anzahl der Dimensionen 14 beträgt.
Dieser Ansatz wird häufig zitiert und ist allgemein bekannt (siehe hier für eine Erklärung).
Rousseeuw, PJ (1987) Silhouetten: Eine grafische Hilfe zur Interpretation und Validierung der Clusteranalyse . J. Comput. Appl. Mathematik. , 20 , 53-65.
quelle
Hier ein Beispiel, das Ihnen helfen kann:
Anhand des zuletzt genannten Diagramms können Sie entscheiden, welche Ihrer ursprünglichen Variablen geplottet werden sollen. Möglicherweise sind 14 Variablen sehr groß. Sie können also vorher eine Hauptkomponentenanalyse (PCA) durchführen und dann die ersten zwei oder drei Komponenten der PCA verwenden, um die Clusteranalyse durchzuführen.
quelle
pairs
Funktion einfach zu verlassen .Der einfachste Weg, den ich kenne, ist der folgende:
Auf diese Weise können Sie die Punkte jedes Clusters mit einer anderen Farbe und ihren Schwerpunkten zeichnen.
quelle