Annahme der gleichen Clustergröße beim Clustering

9

Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?

zerbrechlich
quelle
3
"Ja wirklich?" Es ist seltsam zu wissen, dass alle Cluster ungefähr die gleichen Stichprobenpunkte haben sollten. k-means benötigt nur eine Distanzmetrik und die Anzahl der Mittel. Die Gleichheit der Clustergröße ist mir völlig fremd.
Chamberlain Foncha
1
k-means überprüft an sich keine Clustergrößen. Es geht nur um den Mittelwert der aktuellen Schätzung. Aber ich denke, Sie können den Algorithmus modifizieren und nach der Konvergenz zu k-means die Daten in k Partitionen aufteilen und jede Stichprobe dem nächsten Mittelwert zuordnen. Dann erhalten Sie Cluster gleicher Größe, aber ich bezweifle, dass es ein "besserer" wird. Clustering .. Siehe Felipes Beispiel, wie gleich große Cluster fehlschlagen ..
Jeff

Antworten:

12

k-means kümmert sich nicht um Cluster-Kardinalitäten

Sie verstehen die verbreitete Aussage falsch, dass k-Mittel-Cluster "tendenziell gleich groß sind" (wobei sich Größe auf den Bereich bezieht , nicht auf die Kardinalität ). Letzteres trifft bis zu einem gewissen Grad zu, da k-means die Daten immer auf der mittleren Orthogonale der beiden Cluster aufteilt. Dies ergibt eine annähernd gleichmäßige Aufteilung des Datenraums (zumindest wenn wir den unendlichen leeren Raum außerhalb Ihrer Daten ignorieren - dies ist mathematisch nicht streng).

Wenn Ihr Datensatz jedoch eine unterschiedliche Dichte aufweist (und warum sollten Sie Clustering verwenden, wenn Sie dies nicht getan haben), müssen zwei Cluster desselben Bereichs nicht dieselbe Anzahl von Elementen aufweisen .

Der einzige mir bekannte Algorithmus, der versucht, die gleiche Cluster-Kardinalität sicherzustellen, ist dieses Tutorial zum Algorithmus mit der gleichen Größe und km .

Hat aufgehört - Anony-Mousse
quelle
1

Es gilt nicht, auch nicht in k bedeutet. Nehmen Sie zum Beispiel folgende Daten:

...
...

           xxxxxxxxxxxxxx
            x x x x xxxxx
            xxxxxxxxxx
           xxxxxxxxxxx

Wenn Sie k means mit 2 Klassen ausführen, haben die beiden resultierenden Cluster eindeutig eine unterschiedliche Anzahl von Elementen.

Felipe Gerard
quelle