Ich frage mich: Gibt es beim Clustering von Daten mit einem allgemeinen Algorithmus eine Annahme über ungefähr gleiche Größen der Cluster? Zum Beispiel sollten in k-means, wie ich weiß, alle Cluster ca. gleiche Anzahl von Proben. Gilt das auch für andere Clustering-Algorithmen?
clustering
k-means
zerbrechlich
quelle
quelle
Antworten:
k-means kümmert sich nicht um Cluster-Kardinalitäten
Sie verstehen die verbreitete Aussage falsch, dass k-Mittel-Cluster "tendenziell gleich groß sind" (wobei sich Größe auf den Bereich bezieht , nicht auf die Kardinalität ). Letzteres trifft bis zu einem gewissen Grad zu, da k-means die Daten immer auf der mittleren Orthogonale der beiden Cluster aufteilt. Dies ergibt eine annähernd gleichmäßige Aufteilung des Datenraums (zumindest wenn wir den unendlichen leeren Raum außerhalb Ihrer Daten ignorieren - dies ist mathematisch nicht streng).
Wenn Ihr Datensatz jedoch eine unterschiedliche Dichte aufweist (und warum sollten Sie Clustering verwenden, wenn Sie dies nicht getan haben), müssen zwei Cluster desselben Bereichs nicht dieselbe Anzahl von Elementen aufweisen .
Der einzige mir bekannte Algorithmus, der versucht, die gleiche Cluster-Kardinalität sicherzustellen, ist dieses Tutorial zum Algorithmus mit der gleichen Größe und km .
quelle
Es gilt nicht, auch nicht in k bedeutet. Nehmen Sie zum Beispiel folgende Daten:
Wenn Sie k means mit 2 Klassen ausführen, haben die beiden resultierenden Cluster eindeutig eine unterschiedliche Anzahl von Elementen.
quelle