Was bedeutet total ss und zwischen ss beim k-means Clustering?

10

Ich bin sehr neu in der Clusteranalyse. Ich benutze R für k-means Clustering und frage mich, was diese Dinge sind. Und was ist besser, wenn ihr Verhältnis kleiner oder größer ist?

kanbhold
quelle

Antworten:

12

Es ist im Grunde ein Maß für die Güte der Klassifikation, die k-means gefunden hat. SS steht offensichtlich für Summe der Quadrate, es ist also die übliche Zerlegung von Abweichungen in Abweichungen zwischen und Abweichungen innerhalb. Idealerweise möchten Sie ein Clustering mit den Eigenschaften interner Kohäsion und externer Trennung, dh das BSS / TSS-Verhältnis sollte sich 1 nähern.

Zum Beispiel in R:

data(iris)
km <- kmeans(iris[,1:4], 3)

ergibt ein BSS / TSS-Verhältnis von 88,4% (0,884), was eine gute Anpassung anzeigt. Sie sollten vorsichtig sein, und es ist normalerweise eine gute Idee, das WSS gegen die Anzahl der Cluster zu zeichnen, da diese Anzahl im Voraus angegeben werden muss.

lambda_vu
quelle