Ich bin etwas verwirrt über die Area Under Curve (AUC) von ROC und die allgemeine Genauigkeit.
Wird die AUC proportional zur Gesamtgenauigkeit sein? Mit anderen Worten, wenn wir eine größere Gesamtgenauigkeit haben, werden wir definitiv eine größere AUC bekommen? Oder sind sie per definitionem positiv korreliert?
Wenn sie positiv korreliert sind, warum berichten wir dann beide in einigen Publikationen?
In realem Fall habe ich eine Klassifizierungsaufgabe durchgeführt und die Ergebnisse wie folgt erhalten: Klassifizierer A hat eine Genauigkeit von 85% und eine AUC von 0,98 und Klassifizierer B hat eine Genauigkeit von 93% und eine AUC von 0,92. Die Frage ist, welcher Klassifikator ist besser? Oder ist es möglich, ähnliche Ergebnisse wie diese zu erzielen (ich meine, es könnte einen Fehler in meiner Implementierung geben)?
quelle
Antworten:
AUC (basierend auf ROC) und Gesamtgenauigkeit scheinen nicht dasselbe Konzept zu sein.
Die Gesamtgenauigkeit basiert auf einem bestimmten Schnittpunkt, während ROC den gesamten Schnittpunkt ausprobiert und die Empfindlichkeit und Spezifität aufzeichnet. Wenn wir also die Gesamtgenauigkeit vergleichen, vergleichen wir die Genauigkeit basierend auf einem bestimmten Schnittpunkt. Die Gesamtgenauigkeit variiert je nach Schnittpunkt.
quelle
Während die beiden statistischen Kennzahlen wahrscheinlich korrelieren, messen sie unterschiedliche Qualitäten des Klassifikators.
AUROC
Die Fläche unter der Kurve (AUC) entspricht der Wahrscheinlichkeit, dass ein Klassifikator eine zufällig ausgewählte positive Instanz höher einstuft als ein zufällig ausgewähltes negatives Beispiel. Er misst die Klassifizierer Mann - Ranking eine Reihe von Mustern nach dem Grad , in dem sie auf die positive Klasse gehören, aber ohne tatsächlich Muster zu Klassen zuordnen.
Die Gesamtgenauigkeit hängt auch von der Fähigkeit des Klassifikators ab, Muster zu klassifizieren, aber auch von seiner Fähigkeit, einen Schwellenwert in der Rangfolge auszuwählen, der verwendet wird, um Muster der positiven Klasse zuzuweisen, wenn sie über dem Schwellenwert liegt, und der negativen Klasse, wenn sie darunter liegt.
Somit hat der Klassifikator mit der höheren AUROC-Statistik (wobei alle Dinge gleich sind) wahrscheinlich auch eine höhere Gesamtgenauigkeit, da die Rangfolge der Muster (die AUROC misst) sowohl für AUROC als auch für die Gesamtgenauigkeit vorteilhaft ist. Wenn jedoch ein Klassifikator Muster gut einordnet, aber den Schwellenwert schlecht auswählt, kann er eine hohe AUROC, aber eine schlechte Gesamtgenauigkeit aufweisen.
Praktischer Nutzen
In der Praxis sammle ich gerne die Gesamtgenauigkeit, die AUROC, und wenn der Klassifikator die Wahrscheinlichkeit einer Klassenzugehörigkeit, die Kreuzentropie oder prädiktive Informationen schätzt. Dann habe ich eine Metrik, die die rohe Fähigkeit misst, eine harte Klassifizierung durchzuführen (vorausgesetzt, die Kosten für falsch-positive und falsch-negative Fehlklassifizierungen sind gleich und die Klassenhäufigkeiten in der Stichprobe sind die gleichen wie im Betrieb - eine große Annahme!). Eine Metrik, die die Fähigkeit zur Einstufung von Mustern misst, und eine Metrik, die misst, wie gut die Einstufung als Wahrscheinlichkeit kalibriert ist.
Für viele Aufgaben sind die Kosten für eine Fehlklassifizierung des Betriebs unbekannt oder variabel, oder die Häufigkeiten der Betriebsklassen unterscheiden sich von denen in der Schulungsstichprobe oder sind variabel. In diesem Fall ist die Gesamtgenauigkeit oftmals ziemlich bedeutungslos und der AUROC ist ein besserer Leistungsindikator. Idealerweise möchten wir einen Klassifikator, der gut kalibrierte Wahrscheinlichkeiten ausgibt, damit wir diese Probleme im betrieblichen Einsatz ausgleichen können. Welche Metrik wichtig ist, hängt im Wesentlichen von dem Problem ab, das wir zu lösen versuchen.
quelle
Ist AUC wirklich eine sehr nützliche Metrik?
Ich würde sagen, dass die erwarteten Kosten angemessener sind.
Dann hätten Sie Kosten A für alle False Positives und Kosten B für alle False Negatives. Es kann leicht sein, dass andere Klassen relativ teurer sind als andere. Wenn Sie Kosten für eine falsche Klassifizierung in den verschiedenen Untergruppen haben, ist diese Metrik natürlich noch leistungsfähiger.
Durch Auftragen des Cutoffs in der X-Achse und der erwarteten Kosten auf der Y-Achse können Sie sehen, welcher Cutoff-Punkt die erwarteten Kosten minimiert.
Formal haben Sie eine Verlustfunktion Verlust (Cut-Off | Daten, Kosten), die Sie zu minimieren versuchen.
quelle
Wie alle Antworten wurden gepostet:
ROC
undaccuracy
ist grundlegend zwei verschiedene Konzepte.Im Allgemeinen
ROC
beschreibt die Unterscheidungskraft eines Klassifikators unabhängig von der Klassenverteilung und ungleichen Vorhersagefehlerkosten (falsch positive und falsch negative Kosten).Metriken wie
accuracy
werden basierend auf der Klassenverteilung vontest dataset
oder berechnet.cross-validation
Dieses Verhältnis kann sich jedoch ändern, wenn Sie den Klassifikator auf Daten aus dem realen Leben anwenden, da die zugrunde liegende Klassenverteilung geändert wurde oder unbekannt ist. Auf der anderen Seite,TP rate
undFP rate
die zum Konstruieren verwendetAUC
werden, werden durch die Verschiebung der Klassenverteilung nicht beeinflusst.quelle