Warum hat der AUC = 1-Klassifikator die Hälfte der Stichproben falsch klassifiziert?

20

Ich benutze einen Klassifikator, der Wahrscheinlichkeiten zurückgibt. Zur Berechnung der AUC verwende ich das pROC R-Paket. Die Ausgabewahrscheinlichkeiten des Klassifikators sind:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probszeigt die Wahrscheinlichkeit, in der Klasse '1' zu sein. Wie gezeigt, hat der Klassifikator alle Proben in Klasse '1' klassifiziert.

Der wahre Beschriftungsvektor ist:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Wie gezeigt, hat der Klassifikator 5 Proben falsch klassifiziert. Aber AUC ist:

pROC::auc(truel, probs)
Area under the curve: 1

Können Sie mir bitte erklären, warum das passiert?

user4704857
quelle
Verwandte Frage: stats.stackexchange.com/questions/97395
Juho Kokkala

Antworten:

21

Die AUC ist ein Maß für die Fähigkeit zu Rang Beispiele gemäß der Wahrscheinlichkeit der Klassenzugehörigkeit. Wenn also alle Wahrscheinlichkeiten über 0,5 liegen, können Sie immer noch eine AUC von eins haben, wenn alle positiven Muster höhere Wahrscheinlichkeiten haben als alle negativen Muster. In diesem Fall gibt es eine Entscheidungsschwelle, die höher als 0,5 ist, was eine Fehlerrate von Null ergeben würde. Beachten Sie, dass die AUC nur die Rangfolge der Wahrscheinlichkeiten misst und nicht angibt, ob die Wahrscheinlichkeiten gut kalibriert sind (z. B. keine systematische Verzerrung vorliegt).

Dikran Beuteltier
quelle
21

Die anderen Antworten erklären, was passiert, aber ich dachte, ein Bild könnte schön sein.

Sie können sehen, dass die Klassen perfekt voneinander getrennt sind, sodass die AUC 1 beträgt. Bei einem Schwellenwert von 1/2 ergibt sich jedoch eine Fehlklassifizierungsrate von 50%.

Probs

jld
quelle
21

Die Proben wurden überhaupt nicht "falsch klassifiziert". Die 0Beispiele sind streng niedriger eingestuft als die 1Beispiele. AUROC tut genau das, wofür es definiert ist. Dabei wird die Wahrscheinlichkeit gemessen, dass eine zufällig ausgewählte Person 1höher eingestuft wird als eine zufällig ausgewählte Person 0. In diesem Beispiel ist dies immer der Fall, sodass es sich um ein Ereignis mit Wahrscheinlichkeit 1 handelt.

Tom Fawcett hat einen großartigen Expository-Artikel über ROC-Kurven. Ich würde vorschlagen, dort anzufangen.

Tom Fawcett. "Eine Einführung in die ROC-Analyse." Mustererkennungsbuchstaben. 2005.

Sycorax sagt Reinstate Monica
quelle
3
+1 Das Fawcett-Papier ist in der Tat ein sehr guter Ausgangspunkt.
Dikran Marsupial