Aus konzeptioneller und algorithmischer Sicht verstehe ich, wie K-means funktioniert. Aus mathematischer Sicht verstehe ich jedoch nicht, warum das Minimieren des WCSS (Quadratsummen innerhalb des Clusters) notwendigerweise den Abstand zwischen Clustern maximiert . Mit anderen Worten, kann jemand zeigen, wie diese Funktion der Maximierung des Abstands zwischen Clustern entspricht? Es wäre hilfreich, eine Ableitung zu sehen, die alle Schritte zeigt, oder mich auf die entsprechenden Referenzen zu verweisen.
Update Ich habe diese Referenz von Witten und Tibshirani gefunden, aber es ist nicht offensichtlich, wie ich von Gleichung 7 zu Gleichung 8 komme.
clustering
k-means
distance
sums-of-squares
euclidean
Krautsalat
quelle
quelle
Antworten:
Bei K-means dreht sich alles um das Varianzanalyse-Paradigma. ANOVA - sowohl uni- als auch multivariat - basiert auf der Tatsache, dass die Summe der quadratischen Abweichungen um den großen Schwerpunkt aus einer solchen Streuung um die Gruppenschwerpunkte und der Streuung dieser Schwerpunkte um den großen Schwerpunkt besteht: SStotal = SSwithin + SSbetween . Wenn also SSwithin minimiert wird, wird SSbetween maximiert.
Es ist bekannt, dass die SS der Abweichungen einiger Punkte um ihren Schwerpunkt (arithmetisches Mittel) in direktem Zusammenhang mit dem gesamten euklidischen Quadratabstand zwischen den Punkten steht: Die Summe der quadratischen Abweichungen vom Schwerpunkt entspricht der Summe der paarweisen quadratischen euklidischen Abstände geteilt durch die Zahl von Punkten . (Dies ist die direkte Erweiterung der trigonometrischen Eigenschaft des Schwerpunkts . Diese Beziehung wird auch bei der doppelten Zentrierung der Distanzmatrix ausgenutzt .)
Das Sprichwort "SS zwischen Zentroiden (als Punkte) wird maximiert" bedeutet daher "der (gewichtete) Satz quadratischer Abstände zwischen den Zentroiden wird maximiert".
Hinweis: In SS zwischen wird jeder Schwerpunkt mit der Anzahl der Punkte
Ni
in diesem Cluster gewichteti
. Das heißt, jeder Schwerpunkt wirdNi
mal gezählt . Zum Beispiel mit zwei Schwerpunkten in den Daten1
und2
SSbetween =N1*D1^2+N2*D2^2
woD1
undD2
sind die Abweichungen der Schwerpunkte vom großen Mittelwert. Das, woher das Wort "gewichtet" im vorherigen Absatz stammt.Beispiel
quelle
Was Sie suchen, ist der Satz von König-Huygens .
quelle