ROC-Kurven für unsymmetrische Datensätze

10

Betrachten Sie eine Eingangsmatrix und einen Binärausgang y .Xy

Eine übliche Methode zur Messung der Leistung eines Klassifikators ist die Verwendung von ROC-Kurven.

In einem ROC-Diagramm ist die Diagonale das Ergebnis, das von einem zufälligen Klassifikator erhalten würde. Im Falle einer unsymmetrischen Ausgabe die Leistung eines Zufallsklassifizierers verbessert werden, indem 0 oder 1 mit unterschiedlichen Wahrscheinlichkeiten gewählt wird.y01

Wie kann die Leistung eines solchen Klassifikators in einem ROC-Kurvendiagramm dargestellt werden? Ich nehme an, es sollte eine gerade Linie mit einem anderen Winkel sein und nicht mehr die Diagonale?

Beispiel für eine ROC-Kurve

Donbeo
quelle
2
Möglicherweise möchten Sie präzisions Rückruf Kurve statt : „Die Precision-Recall Plot ist informativer als die ROC - Plot bei der Auswertung Binary Classifier auf Imbalanced Datensätze“ , um zu versuchen, ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , ein wahrscheinlich mehr zugängliche Website erstellt von den Autoren des Papiers, classeval.wordpress.com/simulation-analysis/…
Zyxue

Antworten:

16

ROC-Kurven sind unempfindlich gegenüber dem Klassengleichgewicht. Die gerade Linie, die Sie jetzt für einen zufälligen Klassifikator erhalten, ist bereits das Ergebnis der Verwendung unterschiedlicher Wahrscheinlichkeiten für eine positive Ausbeute (0 bringt Sie zu (0, 0) und 1 bringt Sie zu (1, 1) mit einem beliebigen Bereich dazwischen).

In einer unausgeglichenen Umgebung ändert sich nichts.

Marc Claesen
quelle
1
Ich finde es hilfreich, die Bedeutung des Bereichs unter der Kurve zu berücksichtigen, um festzustellen, warum sich die Diagonale nicht ändert. AUC kann als die Wahrscheinlichkeit interpretiert werden, dass ein zufällig ausgewähltes positives Beispiel eine höhere Punktzahl aufweist als ein zufällig ausgewähltes negatives Beispiel. 1 . Dies macht mir klarer, warum Klassenungleichgewicht kein Problem ist.
JBecker