Fläche unter der Kurve des ROC im Verhältnis zur Gesamtgenauigkeit

29

Ich bin etwas verwirrt über die Area Under Curve (AUC) von ROC und die allgemeine Genauigkeit.

  1. Wird die AUC proportional zur Gesamtgenauigkeit sein? Mit anderen Worten, wenn wir eine größere Gesamtgenauigkeit haben, werden wir definitiv eine größere AUC bekommen? Oder sind sie per definitionem positiv korreliert?

  2. Wenn sie positiv korreliert sind, warum berichten wir dann beide in einigen Publikationen?

  3. In realem Fall habe ich eine Klassifizierungsaufgabe durchgeführt und die Ergebnisse wie folgt erhalten: Klassifizierer A hat eine Genauigkeit von 85% und eine AUC von 0,98 und Klassifizierer B hat eine Genauigkeit von 93% und eine AUC von 0,92. Die Frage ist, welcher Klassifikator ist besser? Oder ist es möglich, ähnliche Ergebnisse wie diese zu erzielen (ich meine, es könnte einen Fehler in meiner Implementierung geben)?

Samo Jerom
quelle
1
Ich habe festgestellt, dass ein Artikel für einige von Ihnen von Interesse sein könnte. google.co.uk/…
Samo Jerom
Sollte die AUC nicht unter der Gesamtgenauigkeit liegen, da wir bei der AUC-Messung die falsch-positive Rate berücksichtigen, bei der Genauigkeit hingegen nicht ???
Ali Sultan
ROC AUC ist von Vorteil, wenn die Klassen unterschiedlich groß sind. Wenn 99% der Objekte positiv sind, kann durch Stichproben eine Genauigkeit von 99% erzielt werden. Dann ist der ROC AUC-Wert viel aussagekräftiger.
Anony-Mousse

Antworten:

26

AUC (basierend auf ROC) und Gesamtgenauigkeit scheinen nicht dasselbe Konzept zu sein.

Die Gesamtgenauigkeit basiert auf einem bestimmten Schnittpunkt, während ROC den gesamten Schnittpunkt ausprobiert und die Empfindlichkeit und Spezifität aufzeichnet. Wenn wir also die Gesamtgenauigkeit vergleichen, vergleichen wir die Genauigkeit basierend auf einem bestimmten Schnittpunkt. Die Gesamtgenauigkeit variiert je nach Schnittpunkt.

Vincent
quelle
2
Vielen Dank für Ihre Antwort! Ich verstehe, dass die Gesamtgenauigkeit von einem bestimmten Schnittpunkt (oder Schwellenwert) erhalten wird. Es gibt jedoch einen besten Schnittpunkt, dh denjenigen, der der oberen linken Ecke am nächsten liegt. Zum Beispiel wird meine Gesamtgenauigkeit unter Verwendung dieses besten Grenzwerts berechnet, und die AUC gilt für alle verschiedenen Grenzwerte. Wie ist dann diese Genauigkeit und AUC zu interpretieren? Zum Beispiel die Leistung der beiden oben genannten Klassifikatoren.
Samo Jerom
3
Oh, ich verstehe. Sie vergleichen die beste Gesamtgenauigkeit und AUC. Aber sie sind immer noch ein anderes Konzept. Die AUC ist P (vorhergesagt WAHR | tatsächlich WAHR) gegen P (FALSCH | FALSCH), während die Gesamtgenauigkeit P = P (WAHR | WAHR) * P (tatsächlich WAHR) + P (FALSCH | FALSCH) * P ( tatsächliche FALSE). Das hängt also sehr vom Anteil des wahren Wertes an Ihrem Datensatz ab. In der Praxis scheint es, dass die beste Gesamtgenauigkeit normalerweise erreicht wird, wenn der Schnittpunkt in der Nähe von P (tatsächliches WAHR) liegt.
Vincent
Die AUC und die beste Gesamtgenauigkeit sind möglicherweise nicht konsistent, je nach dem Anteil des wahren Werts Ihres Datensatzes. In Ihrem Fall scheint einer der Klassifikatoren mehr auf Sensitivität als auf Spezifität ausgerichtet zu sein. Und in Ihrem aktuellen Datensatz ist das P (TRUE) nicht 50%. Sensitivität und Spezifität tragen also zur Gesamtgenauigkeit bei, indem sie unterschiedlich gewichtet werden. In der Praxis kann uns das ROC weitere Informationen geben, und wir möchten von Fall zu Fall den eleganteren auswählen. Der Spam-Klassifizierer konzentriert sich möglicherweise mehr auf P (kein Spam), um zu verhindern, dass wichtige E-Mails übersehen werden.
Vincent
Danke für deine Antwort. Es ist jetzt viel klarer. Aber wenn jemand mehr diskutieren möchte, bitte hier posten.
Samo Jerom
27

Während die beiden statistischen Kennzahlen wahrscheinlich korrelieren, messen sie unterschiedliche Qualitäten des Klassifikators.

AUROC

Die Fläche unter der Kurve (AUC) entspricht der Wahrscheinlichkeit, dass ein Klassifikator eine zufällig ausgewählte positive Instanz höher einstuft als ein zufällig ausgewähltes negatives Beispiel. Er misst die Klassifizierer Mann - Ranking eine Reihe von Mustern nach dem Grad , in dem sie auf die positive Klasse gehören, aber ohne tatsächlich Muster zu Klassen zuordnen.

Die Gesamtgenauigkeit hängt auch von der Fähigkeit des Klassifikators ab, Muster zu klassifizieren, aber auch von seiner Fähigkeit, einen Schwellenwert in der Rangfolge auszuwählen, der verwendet wird, um Muster der positiven Klasse zuzuweisen, wenn sie über dem Schwellenwert liegt, und der negativen Klasse, wenn sie darunter liegt.

Somit hat der Klassifikator mit der höheren AUROC-Statistik (wobei alle Dinge gleich sind) wahrscheinlich auch eine höhere Gesamtgenauigkeit, da die Rangfolge der Muster (die AUROC misst) sowohl für AUROC als auch für die Gesamtgenauigkeit vorteilhaft ist. Wenn jedoch ein Klassifikator Muster gut einordnet, aber den Schwellenwert schlecht auswählt, kann er eine hohe AUROC, aber eine schlechte Gesamtgenauigkeit aufweisen.

Praktischer Nutzen

In der Praxis sammle ich gerne die Gesamtgenauigkeit, die AUROC, und wenn der Klassifikator die Wahrscheinlichkeit einer Klassenzugehörigkeit, die Kreuzentropie oder prädiktive Informationen schätzt. Dann habe ich eine Metrik, die die rohe Fähigkeit misst, eine harte Klassifizierung durchzuführen (vorausgesetzt, die Kosten für falsch-positive und falsch-negative Fehlklassifizierungen sind gleich und die Klassenhäufigkeiten in der Stichprobe sind die gleichen wie im Betrieb - eine große Annahme!). Eine Metrik, die die Fähigkeit zur Einstufung von Mustern misst, und eine Metrik, die misst, wie gut die Einstufung als Wahrscheinlichkeit kalibriert ist.

Für viele Aufgaben sind die Kosten für eine Fehlklassifizierung des Betriebs unbekannt oder variabel, oder die Häufigkeiten der Betriebsklassen unterscheiden sich von denen in der Schulungsstichprobe oder sind variabel. In diesem Fall ist die Gesamtgenauigkeit oftmals ziemlich bedeutungslos und der AUROC ist ein besserer Leistungsindikator. Idealerweise möchten wir einen Klassifikator, der gut kalibrierte Wahrscheinlichkeiten ausgibt, damit wir diese Probleme im betrieblichen Einsatz ausgleichen können. Welche Metrik wichtig ist, hängt im Wesentlichen von dem Problem ab, das wir zu lösen versuchen.

Dikran Beuteltier
quelle
Dikran, haben Sie eine Referenz für Ihren ersten Absatz?
Bunder
@Unter nicht direkt, ist die AUROC die Wahrscheinlichkeit, dass ein zufällig ausgewähltes + ves Muster höher eingestuft wird als ein zufällig ausgewähltes -ve-Muster ( en.wikipedia.org/wiki/… ) und ist daher ein Maß für die Qualität des Rankings Wir möchten, dass diese Wahrscheinlichkeit so hoch wie möglich ist.
Dikran Beuteltier
5

Ist AUC wirklich eine sehr nützliche Metrik?

Ich würde sagen, dass die erwarteten Kosten angemessener sind.

Dann hätten Sie Kosten A für alle False Positives und Kosten B für alle False Negatives. Es kann leicht sein, dass andere Klassen relativ teurer sind als andere. Wenn Sie Kosten für eine falsche Klassifizierung in den verschiedenen Untergruppen haben, ist diese Metrik natürlich noch leistungsfähiger.

Durch Auftragen des Cutoffs in der X-Achse und der erwarteten Kosten auf der Y-Achse können Sie sehen, welcher Cutoff-Punkt die erwarteten Kosten minimiert.

Formal haben Sie eine Verlustfunktion Verlust (Cut-Off | Daten, Kosten), die Sie zu minimieren versuchen.

Analytiker
quelle
3
Die erwarteten Kosten können nur bewertet werden, wenn Sie die falsch-positiven und falsch-negativen Kosten kennen, die für die Berechnung der AUC nicht erforderlich sind. Dies ist eine gute Statistik, wenn die Kosten unbekannt oder variabel sind.
Dikran Beuteltier
4

Wie alle Antworten wurden gepostet: ROCund accuracyist grundlegend zwei verschiedene Konzepte.

Im Allgemeinen ROCbeschreibt die Unterscheidungskraft eines Klassifikators unabhängig von der Klassenverteilung und ungleichen Vorhersagefehlerkosten (falsch positive und falsch negative Kosten).

Metriken wie accuracywerden basierend auf der Klassenverteilung von test datasetoder berechnet. cross-validationDieses Verhältnis kann sich jedoch ändern, wenn Sie den Klassifikator auf Daten aus dem realen Leben anwenden, da die zugrunde liegende Klassenverteilung geändert wurde oder unbekannt ist. Auf der anderen Seite, TP rateund FP ratedie zum Konstruieren verwendet AUCwerden, werden durch die Verschiebung der Klassenverteilung nicht beeinflusst.

Ling Ma
quelle