Ellbogenkriterien zur Bestimmung der Anzahl der Cluster

9

Es wird hier erwähnt , dass eine der Methoden zur Bestimmung der optimalen Anzahl von Clustern in einem Datensatz die "Ellbogenmethode" ist. Hier wird der Prozentsatz der Varianz als das Verhältnis der Varianz zwischen Gruppen zur Gesamtvarianz berechnet.

Ich hatte Schwierigkeiten, diese Berechnung zu verstehen. Kann jemand erklären, wie der Prozentsatz der Varianz für einen Datensatz berechnet wird, der als Merkmalsmatrix , wobei die Merkmalsdimension und die Anzahl der Datenpunkte ist . Ich benutze den k-means-Algorithmus zum Clustering.F.R.m×nmn

Lerner
quelle

Antworten:

13

Die Idee, die dem k-means-Algorithmus zugrunde liegt, besteht darin, zu versuchen, Cluster zu finden, die die Varianz innerhalb des Clusters minimieren (oder bis zu einer Konstanten die entsprechende Summe von Quadraten oder SS), was eine Maximierung der SS zwischen Clustern bedeutet, da die Gesamtvarianz ist Fest. Wie im Wiki erwähnt, können Sie das innerhalb von SS direkt verwenden und seine Variation betrachten, wenn Sie die Anzahl der Cluster erhöhen (wie wir es in der Faktoranalyse mit einem Screeplot tun würden): Eine abrupte Änderung der SS-Entwicklung deutet auf eine optimale Lösung hin , obwohl dies nur von der visuellen Wertschätzung abhängt. Da die Gesamtvarianz festgelegt ist, ist es äquivalent zu untersuchen, wie sich das Verhältnis zwischen und Gesamt-SS, auch als Prozentsatz der erklärten Varianz bezeichnet, entwickelt, da es in diesem Fall eine große Lücke von einem k zum nächsten k aufweist +1.

In der Summe müssen Sie nur den quadratischen Abstand zwischen jedem Datenpunkt und seinem jeweiligen Zentrum (oder Schwerpunkt) für jeden Cluster berechnen - dies gibt Ihnen die innerhalb von SS, und die Summe innerhalb von SS ist nur die Summe der clusterspezifischen WSS (ihre Umwandlung in Varianz ist nur eine Frage der Division durch die entsprechenden Freiheitsgrade); Das Zwischen-SS wird erhalten, indem das gesamte WSS von dem gesamten SS subtrahiert wird, wobei letzteres beispielsweise unter Berücksichtigung von k = 1 erhalten wird.

Übrigens, mit k = 1 ist WSS = TSS und BSS = 0.

Wenn Sie die Anzahl der Cluster festgelegt haben oder wissen möchten, wo Sie mit dem k-Mittel anhalten sollen, können Sie die Gap-Statistik als Alternative zu den Ellbogenkriterien in Betracht ziehen:

Tibshirani, R., Walther, G. und Hastie, T. (2001). Schätzen der Anzahl von Clustern in einem Datensatz über die Lückenstatistik . JR Statist. Soc. B , 63 (2): 411 & ndash; 423.

chl
quelle
+1 Vielen Dank für die ausführliche Erklärung. Ich habe mich nur gefragt, ob sich die Methode zur Bestimmung der optimalen Anzahl von Clustern ändert, wenn ich eine andere Abstandsmetrik verwende, z. B. Kosinusähnlichkeit. Würdest du irgendwelche Gedanken dazu haben?
Legende