Wie berechnen wir in der Clusteranalyse die Reinheit? Wie lautet die Gleichung?
Ich suche keinen Code, um das für mich zu tun.
Sei der Cluster k und die Klasse j.
Ist Reinheit also praktisch genau? Es sieht so aus, als würde die Menge der wirklich klassifizierten Klassen pro Cluster über die Stichprobengröße summiert.
Die Frage ist, in welcher Beziehung zwischen dem Output und dem Input?
Wenn es wirklich positive (TP), wirklich negative (TN), falsch positive (FP), falsch negative (FN) gibt. Ist es ?
clustering
Iancovici
quelle
quelle
Antworten:
Reinheit ist im Rahmen der Clusteranalyse ein externes Bewertungskriterium für die Clusterqualität. Dies ist der Prozentsatz der Gesamtzahl der Objekte (Datenpunkte), die im Einheitenbereich [0..1] korrekt klassifiziert wurden.
Dabei istN = Anzahl der Objekte (Datenpunkte), k = Anzahl der Cluster, ci ist ein Cluster in C und tj ist die Klassifikation, die die maximale Anzahl für den Cluster ci
Wenn wir "richtig" sagen, bedeutet dies, dass jeder Clusterci eine Gruppe von Objekten als dieselbe Klasse identifiziert hat, auf die die Grundwahrheit hingewiesen hat. Wir verwenden die Grundwahrheitsklassifikation ti dieser Objekte als Maß für die Zuordnungskorrektheit. Dazu müssen wir jedoch wissen, welcher Cluster ci auf welche Grundwahrheitsklassifikation ti . Wenn es 100% genau wäre, würde jedes ci genau 1 ti , aber in Wirklichkeit unser ci einige Punkte enthalten, deren Grundwahrheit sie als mehrere andere Klassifikationen klassifizierte. Dann können wir natürlich sehen, dass die höchste Clusterqualität durch Verwendung von ci bis erzielt wirdti Abbildung t i verwendet wird, die die meisten korrekten Klassifikationen aufweist, dhci∩ti . Daher kommt dasmax in der Gleichung.
Um die Reinheit zu berechnen, erstellen Sie zuerst Ihre Verwirrungsmatrix. Dies kann durch Durchlaufen jedes Clustersci und Zählen, wie viele Objekte als jede Klasse ti klassifiziert wurden, erfolgen .
Dann für jeden Clusterci
quelle