Ich habe eine sehr grundlegende Frage zum Clustering. Wie interpretiere ich die Klassen der Datenpunkte, die ich geclustert habe (nachdem ich jedem Cluster aussagekräftige Klassenbezeichnungen zugewiesen habe), nachdem ich k Cluster mit ihren Schwerpunkten gefunden habe? Ich spreche nicht von der Validierung der gefundenen Cluster.
Kann dies bei einem kleinen beschrifteten Satz von Datenpunkten durchgeführt werden? Berechnen Sie, zu welchem Cluster diese beschrifteten Punkte gehören, und entscheiden Sie anhand des Typs und der Anzahl der Punkte, die jeder Cluster erhält, über die Beschriftung. Dies scheint ziemlich offensichtlich zu sein, aber ich weiß nicht, wie Standard es ist, Clustern auf diese Weise Labels zuzuweisen.
Um es klar auszudrücken, möchte ich unbeaufsichtigtes Clustering durchführen, bei dem keine Labels verwendet werden, um zuerst meine Cluster zu finden. Nachdem ich die Cluster gefunden habe, möchte ich den Clustern anhand der Eigenschaften einiger Beispieldatenpunkte aussagekräftige Klassenbezeichnungen zuweisen.
Antworten:
Ja. Was Sie vorschlagen, ist völlig Standard und es ist die Art und Weise, wie Standard-k-means-Software automatisch funktioniert. Im Fall von k-means berechnen Sie den euklidischen Abstand zwischen jeder Beobachtung (Datenpunkt) und jedem Clustermittelwert (Schwerpunkt) und ordnen die Beobachtungen dem ähnlichsten Cluster zu. Dann wird die Bezeichnung des Clusters bestimmt, indem die durchschnittlichen Eigenschaften der Beobachtungen, die dem Cluster zugeordnet sind, im Verhältnis zu den Durchschnittswerten derjenigen im Verhältnis zu den anderen Clustern untersucht werden.
quelle
Wenn Sie sich die Namen in Ihrem kmeans-Objekt ansehen, werden Sie feststellen, dass es ein "Cluster" -Objekt gibt. Dies enthält die Klassenbezeichnungen, die genauso wie Ihre Eingabedaten bestellt wurden. Hier ist ein einfaches Beispiel, das die Cluster-Labels wieder an Ihre Daten bindet.
quelle
Die Bezeichnungen für den Cluster können auf der Klasse der Mehrheitsstichproben innerhalb eines Clusters basieren. Dies gilt jedoch nur, wenn die Anzahl der Cluster gleich der Anzahl der Klassen ist.
quelle