Wie berechne ich die Reinheit?

15

Wie berechnen wir in der Clusteranalyse die Reinheit? Wie lautet die Gleichung?

Ich suche keinen Code, um das für mich zu tun.

Bildbeschreibung hier eingeben

Sei ωk der Cluster k und cj die Klasse j.

Ist Reinheit also praktisch genau? Es sieht so aus, als würde die Menge der wirklich klassifizierten Klassen pro Cluster über die Stichprobengröße summiert.

Gleichungsquelle

Die Frage ist, in welcher Beziehung zwischen dem Output und dem Input?

Wenn es wirklich positive (TP), wirklich negative (TN), falsch positive (FP), falsch negative (FN) gibt. Ist es ?Purity=TPK(TP+TN+FP+FN)

Iancovici
quelle
3
Wenn Sie nur eine kurze Definition benötigen: Die häufigste Google-Suche zum Thema Clusterreinheit ** enthält hier eine mathematische Definition. (** zumindest für mich - Ihre individuellen Ergebnisse können abweichen)
Glen_b -Reinstate Monica
Ich habe keine Ahnung, was Sie unter "Reinheit" verstehen, aber David Colquhoun verwendet "den schwarzen magischen Assay der Reinheit des Herzens" als Beispiel für die binomische Abtastung auf den Seiten 111-114 seines hervorragenden Lehrbuchs "Lectures on Biostatistics" (1971) Auf der Website des Autors als kostenloses PDF verfügbar: dcscience.net Auch wenn es für Ihre Frage irrelevant ist, ist es eine großartige Geschichte.
Michael Lew - wieder Monica
In Klassifikationsbäumen sind einige der Funktionen zum Messen der Verunreinigung: Resubstitutionsfehler, Gini-Index und Entropie. (Klassifikationsbäume führen eine bestimmte Form der Clusterbildung durch, daher denke ich, dass dies relevant sein sollte.) Ich hoffe, dies hilft!
Angelorf

Antworten:

25

Reinheit ist im Rahmen der Clusteranalyse ein externes Bewertungskriterium für die Clusterqualität. Dies ist der Prozentsatz der Gesamtzahl der Objekte (Datenpunkte), die im Einheitenbereich [0..1] korrekt klassifiziert wurden.

Purity=1Ni=1kmaxj|citj|

Dabei ist N = Anzahl der Objekte (Datenpunkte), k = Anzahl der Cluster, ci ist ein Cluster in C und tj ist die Klassifikation, die die maximale Anzahl für den Cluster ci

Wenn wir "richtig" sagen, bedeutet dies, dass jeder Cluster ci eine Gruppe von Objekten als dieselbe Klasse identifiziert hat, auf die die Grundwahrheit hingewiesen hat. Wir verwenden die Grundwahrheitsklassifikation ti dieser Objekte als Maß für die Zuordnungskorrektheit. Dazu müssen wir jedoch wissen, welcher Cluster ci auf welche Grundwahrheitsklassifikation ti . Wenn es 100% genau wäre, würde jedes ci genau 1 ti , aber in Wirklichkeit unser ci einige Punkte enthalten, deren Grundwahrheit sie als mehrere andere Klassifikationen klassifizierte. Dann können wir natürlich sehen, dass die höchste Clusterqualität durch Verwendung von ci bis erzielt wirdtiAbbildung t i verwendet wird, die die meisten korrekten Klassifikationen aufweist, dhciti . Daher kommt dasmax in der Gleichung.

Um die Reinheit zu berechnen, erstellen Sie zuerst Ihre Verwirrungsmatrix. Dies kann durch Durchlaufen jedes Clusters ci und Zählen, wie viele Objekte als jede Klasse ti klassifiziert wurden, erfolgen .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

Dann für jeden Cluster ci

Purity = (53 + 60 + 16) / 140 = 0.92142
Snives
quelle
kannst du auch bitte auf entropie antworten
MonsterMMORPG
hier meine frage
MonsterMMORPG
tj is the classification ... max counts". There is no need for maxj then. By the way, high purity does not shows the correctness of classification, does it?
LRDPRDX