Warum ist der Bereich unter der ROC-Kurve die Wahrscheinlichkeit, dass ein Klassifizierer eine zufällig ausgewählte "positive" Instanz (aus den abgerufenen Vorhersagen) höher einstuft als eine zufällig ausgewählte "positive" Instanz (aus der ursprünglichen positiven Klasse)? Wie kann man diese Aussage mathematisch unter Verwendung von Integralen beweisen und die CDFs und PDFs der wahren positiven und negativen Klassenverteilungen angeben?
probability
roc
auc
mff
quelle
quelle
Antworten:
Versuchen wir zunächst, den Bereich unter der ROC-Kurve formal zu definieren. Einige Annahmen und Definitionen:
Wir haben einen probabilistischen Klassifikator, der eine "Punktzahl" s (x) ausgibt, wobei x die Merkmale sind, und s eine generisch zunehmende monotone Funktion der geschätzten Wahrscheinlichkeit p ist (Klasse = 1 | x).
, mit k = { 0 , 1 } : = pdf der Punktzahlen für Klasse k, mit CDF F k ( s )fk(s) k={0,1} Fk(s)
Die Klassifizierung einer neuen Beobachtung wird erhalten, indem die Punktzahl s mit einem Schwellenwert t verglichen wird
Betrachten wir der mathematischen Einfachheit halber die positive Klasse (Ereignis erkannt) k = 0 und die negative k = 1. In dieser Einstellung können wir definieren:
Die ROC-Kurve ist dann eine Auftragung von gegen F 1 ( t ) . Wenn wir v = F 1 ( s ) setzen , können wir die Fläche unter der ROC-Kurve formal definieren als: A U C = ∫ 1 0 F 0 ( F - 1 1 ( v ) ) d v Variable ändern ( d v = f 1 () s ) d sF.0( t ) F.1( t ) v = F.1( s )
Diese Formel kann leicht als die Wahrscheinlichkeit angesehen werden, dass ein zufällig gezogenes Mitglied der Klasse 0 eine niedrigere Punktzahl als die Punktzahl eines zufällig gezogenen Mitglieds der Klasse 1 erzeugt.
Dieser Beweis stammt von: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf
quelle
@ Alebus Antwort ist großartig. Die Notation ist jedoch nicht standardisiert und verwendet 0 für die positive Klasse und 1 für die negative Klasse. Nachfolgend sind die Ergebnisse für die Standardnotation aufgeführt (0 für die negative Klasse und 1 für die positive Klasse):
whereτ stands for threshold. One can apply the interpretation in @alebu's answer to the last expression.
quelle
The way to calculate AUC-ROC is to plot out the TPR and FPR as the threshold,τ is changed and calculate the area under that curve. But, why is this area under the curve the same as this probability? Let's assume the following:
Note that the TPR (recall) is given by:P(A>τ) and the FPR (fallout) is given be: P(B>τ) .
Now, we plot the TPR on the y-axis and FPR on the x-axis, draw the curve for variousτ and calculate the area under this curve (AUC ).
We get:
Now,x here was just the FPR
But we know from the inverse transform law that for any random variableX , if FX(Y)∼U then Y∼X . This follows since taking any random variable and applying its own CDF to it leads to the uniform.
Die Verwendung dieser Tatsache in Gleichung (2) ergibt:
Wenn wir dies in Gleichung (1) einsetzen, erhalten wir:
Mit anderen Worten, der Bereich unter der Kurve ist die Wahrscheinlichkeit, dass eine zufällige positive Stichprobe eine höhere Punktzahl aufweist als eine zufällige negative Stichprobe.
quelle