Dies ist eine Fortsetzung dieser Frage. Ich versuche derzeit, den C-Index zu implementieren, um eine nahezu optimale Anzahl von Clustern aus einer Hierarchie von Clustern zu finden. Dazu berechne ich den C-Index für jeden Schritt der (agglomerativen) hierarchischen Clusterbildung. Das Problem ist, dass der C-Index für sehr degenerierte Cluster minimal ist (um genau zu sein 0). Bedenken Sie:
In diesem Fall ist die Summe aller Abstände zwischen Beobachtungspaaren in demselben Cluster über alle Cluster. Sei die Anzahl dieser Paare. und sind die Summen von niedrigsten / höchsten Abständen über alle Beobachtungspaare. Im ersten Schritt des hierarchischen Clusters werden die beiden nächsten Beobachtungen (minimaler Abstand) zu einem Cluster zusammengeführt. Sei der Abstand zwischen diesen Beobachtungen. Jetzt gibt es ein Beobachtungspaar im selben Cluster, also (alle anderen Cluster sind Singletons). Folglich ist . Das Problem ist, dass auch gleich, weil der kleinste Abstand ist (deshalb wurden die Beobachtungen zuerst zusammengeführt). In diesem Fall ist der C-Index also immer 0. Er bleibt 0, solange nur Singleton-Cluster zusammengeführt werden. Dies bedeutet, dass die optimale Clusterbildung gemäß dem C-Index immer aus einer Reihe von Clustern besteht, die zwei Beobachtungen und die restlichen Singletons enthalten. Bedeutet dies, dass der C-Index nicht auf hierarchisches Clustering anwendbar ist? Mache ich etwas falsch? Ich habe viel gesucht, konnte aber keine passende Erklärung finden. Kann mich jemand auf eine Ressource verweisen, die im Internet frei verfügbar ist? Oder, wenn nicht, zumindest ein Buch, das ich in meiner Universitätsbibliothek bekommen möchte?
Danke im Voraus!
quelle
Antworten:
Dies kann einer der Fälle sein, in denen Clustering mehr Kunst als Wissenschaft beinhaltet. Ich würde vorschlagen, dass Sie Ihren Clustering-Algorithmus für eine kurze Zeit laufen lassen, bevor Sie die C-Index-Berechnungen starten. "Kurze Zeit" kann nach der Verarbeitung einiger Paare sein, wenn sie anfängt, 0 oder eine andere Heuristik zu überschreiten. (Schließlich erwarten Sie nicht, dass Sie bei 1 oder 2 Clustern anhalten, da sonst möglicherweise ein anderer Trennungsalgorithmus bereitgestellt wurde.)
Für eine Buchempfehlung kann ich vorschlagen:
Sie können die verfügbaren Inhalte in Google Books scannen / durchsuchen, um festzustellen, ob sie Ihren Anforderungen entsprechen. Es hat in der Vergangenheit als Referenz für mich gearbeitet.
quelle