Visuelles Plotten von mehrdimensionalen Clusterdaten

17

Ich habe einen Datensatz mit 16 Variablen und möchte nach der Gruppierung nach km die beiden Gruppen zeichnen.

Welche Diagramme schlagen Sie vor, um die beiden Cluster visuell darzustellen?

DJ_
quelle

Antworten:

22

Es gibt keine einheitliche richtige Visualisierung. Dies hängt davon ab, welchen Aspekt der Cluster Sie sehen oder hervorheben möchten.

Möchten Sie sehen, wie jede Variable dazu beiträgt? Betrachten Sie ein Parallelkoordinatendiagramm.

Parallele Koordinaten für zwei Cluster und Clustermittel

Möchten Sie sehen, wie Cluster auf die Hauptkomponenten verteilt sind? Betrachten Sie einen Biplot (in 2D oder 3D):

Cluster-Biplot

Möchten Sie nach Cluster-Ausreißern in allen Dimensionen suchen? Betrachten Sie ein Streudiagramm der Entfernung von der Mitte des Clusters 1 zur Entfernung von der Mitte des Clusters 2. (Nach Definition von K bedeutet dies, dass jeder Cluster auf eine Seite der diagonalen Linie fällt.)

Bildbeschreibung hier eingeben

Möchten Sie paarweise Beziehungen im Vergleich zum Clustering sehen? Betrachten Sie eine Streudiagramm-Matrix, die nach Cluster gefärbt ist.

Bildbeschreibung hier eingeben

Möchten Sie eine Übersicht über die Clusterentfernungen anzeigen? Betrachten Sie einen Vergleich von Verteilungsvisualisierungen wie Histogrammen, Violinplots oder Boxplots.

Bildbeschreibung hier eingeben

xan
quelle
2

Multivariate Anzeigen sind schwierig, insbesondere bei dieser Anzahl von Variablen. Ich habe zwei Vorschläge.

Wenn es bestimmte Variablen gibt, die für das Clustering besonders wichtig oder von besonderem Interesse sind, können Sie eine Streudiagramm-Matrix verwenden und die bivariaten Beziehungen zwischen Ihren interessanten Variablen anzeigen. Sie könnten sogar verbesserte Streudiagramme verwenden (z. B. Formen mit einer Größe proportional zu einer dritten Variablen), um mehr Dimensionalität hinzuzufügen

Alternativ können Sie einen Springplot verwenden, der für die Anzeige von hochdimensionalen Daten mit Clustering entwickelt wurde. Beachten Sie, dass ich dies in der mir vertrauten Literatur noch nie gesehen habe, aber ich denke, es ist eine sehr interessante Art, multivariate Daten anzuzeigen. Das folgende Zitat ist, wo die Handlung ursprünglich vorgeschlagen wurde.

Hoffman, PE et al. (1997) DNA-visuelles und analytisches Data-Mining. In den Proceedings der IEEE Visualisierung. Phoenix, AZ, S. 437-441.

Und hier habe ich ursprünglich Erwähnung gefunden.

Nun, um ehrlich zu sein, konnte ich keine Implementierung von Springplots außerhalb von Orange finden. Andererseits habe ich nicht so intensiv gesucht!

Ich gehe davon aus, dass Ihre Daten wirklich wertvoll und kontinuierlich sind, wenn sie diskret oder nicht intervallbezogen sind, usw. Ich halte keine der beiden Diagramme für hilfreich.

Teague
quelle
1
Es gibt eine Radviz-Implementierung für R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99
1

Sie können die Funktion fviz_cluster aus factoextra pacakge in R verwenden. Sie zeigt das Streudiagramm Ihrer Daten und die verschiedenen Farben der Punkte bilden den Cluster.

Nach meinem besten Verständnis führt diese Funktion die PCA durch und wählt dann die beiden oberen PCs aus und zeichnet diese auf 2D.

Vorschläge / Verbesserungen in meiner Antwort sind sehr willkommen.

Rohit Parihar
quelle