Was bedeutet es, dass AUC eine semi-korrekte Bewertungsregel ist?

16

Eine korrekte Bewertungsregel ist eine Regel, die durch ein "echtes" Modell maximiert wird und kein "Absichern" oder Spielen des Systems erlaubt (absichtlich unterschiedliche Ergebnisse zu melden, wie es der wahre Glaube des Modells ist, um die Bewertung zu verbessern). Der Brier-Score ist korrekt, die Genauigkeit (Anteil richtig klassifiziert) ist nicht korrekt und wird oft entmutigt. Manchmal stelle ich fest, dass AUC als eine semi-korrekte Bewertungsregel bezeichnet wird, die es nicht als völlig falsch ansieht, sondern weniger empfindlich als richtige Regeln ist (zum Beispiel hier /stats//a/90705/53084 ).

Was bedeutet die Regel der halb ordnungsgemäßen Wertung? Ist es irgendwo definiert?

rep_ho
quelle
Eine Quelle oder Referenz, in der Sie den Begriff sehen, kann Menschen dabei helfen, sich zu vertiefen?
Sixiang.Hu
Ich glaube, das hat damit zu tun, dass die AUC in etwa dem Konkordanzindex entspricht, der bei der Wahrscheinlichkeitsvorhersage eine angemessene Punktzahl darstellt. Aber das klingt nach einer Frage, die Frank Harrell beantworten muss: stats.stackexchange.com/users/4253/frank-harrell
Brash Equilibrium
2
Soweit ich weiß, ist AUC der Konkordanzindex, der nicht korrekt ist.
rep_ho

Antworten:

14

Beginnen wir mit einem Beispiel. Angenommen, Alice ist ein Streckentrainer und möchte einen Athleten auswählen, der das Team bei einem bevorstehenden Sportereignis, einem 200-Meter-Sprint, repräsentiert. Natürlich will sie den schnellsten Läufer auswählen.

  • Eine streng korrekte Bewertungsregel wäre, den schnellsten Läufer des Teams über eine Distanz von 200 m zu nominieren. Dies maximiert genau das, was Trainer Alice in dieser Situation will. Der Athlet mit der schnellsten erwarteten Leistung wird ausgewählt - dies ist ein fairer Diskriminierungstest.
  • Eine angemessene Bewertungsregel wäre, einen Athleten auszuwählen, der in der Lage ist, 200 m am schnellsten zu laufen, aber die Zeit wird auf die nächste halbe Sekunde gerundet. Der beste Athlet sowie möglicherweise einige andere Athleten können diesen Test ebenfalls bestehen. Alle Athleten, die auf diese Weise ausgewählt werden, sind ziemlich konkurrenzfähig, aber dies ist eindeutig kein perfekter diskriminierender Geschwindigkeitstest.
  • Eine Regel für eine halbwegs korrekte Wertung wäre, einen Athleten auszuwählen, der in der Lage ist, 200 m unter einer Zeitschwelle für einen Wettkampf zu laufen, z. B. 22 Sekunden. Nach wie vor können sowohl der beste Athlet als auch einige andere Athleten diesen Test bestehen. In ähnlicher Weise könnten alle Athleten, die auf diese Weise ausgewählt werden, durchaus wettbewerbsfähig sein, aber dies ist nicht nur kein perfekter Diskriminierungstest, sondern kann auch fürchterlich schlecht werden (wenn wir eine zu milde oder zu strenge Zeit wählen). Beachten Sie, dass dies nicht direkt falsch ist.
  • Eine falsche Bewertungsregel wäre, den Athleten mit den stärksten Beinen auszuwählen, der z. B. die meisten Gewichte hocken kann. Sicherlich hat jeder gute Sprinter sehr starke Beine, aber dieser Test bedeutet, dass einige Leute aus dem Gewichtheberteam hier hervorragende Leistungen erbringen werden. Ein Gewichtheber in einem 200-Meter-Rennen wäre natürlich katastrophal!

Das obige Beispiel zeigt, wenn auch etwas trivialisiert, was mit der Verwendung von Bewertungsregeln geschieht. Alice prognostizierte die erwartete Sprintzeit. Im Rahmen der Klassifikation prognostizieren wir Wahrscheinlichkeiten, die den Fehler eines probabilistischen Klassifikators minimieren.

  • Eine streng korrekte Bewertungsregel wie die Brier-Bewertung garantiert, dass die beste Bewertung nur erreicht wird, wenn wir den tatsächlichen Wahrscheinlichkeiten so nahe wie möglich kommen.
  • Eine angemessene Bewertungsregel wie der CRPS (Continuous Ranked Probability Score) garantiert nicht, dass die beste Bewertung nur von einem Klassifikator erzielt wird, dessen Vorhersagen den tatsächlichen Wahrscheinlichkeiten am nächsten kommen. Andere Kandidatenklassifikatoren erzielen möglicherweise CRPS-Werte, die denen des optimalen Klassifikators entsprechen.
  • Eine semi-korrekte Bewertungsregel wie die AUC-ROC garantiert nicht nur, dass die beste Leistung von einem Klassifikator erzielt wird, dessen Vorhersagen den tatsächlichen Wahrscheinlichkeiten am nächsten kommen, sondern es ist auch (potenziell) möglich, diese zu verbessern die Werte von AUC-ROC, indem die vorhergesagten Wahrscheinlichkeiten von ihren wahren Werten entfernt werden. Trotzdem können solche Regeln unter bestimmten Bedingungen (z. B. ist die Klassenverteilung im Fall von AUC-ROC a priori bekannt) einer geeigneten Bewertungsregel nahekommen. Byrne (2016) " Ein Hinweis zur Verwendung der empirischen AUC zur Bewertung probabilistischer Prognosen " wirft einige interessante Punkte in Bezug auf die AUC-ROC auf.
  • Eine falsche Bewertungsregel wie die Genauigkeit bietet wenig oder gar keine Verbindung zu unserer ursprünglichen Aufgabe, Wahrscheinlichkeiten so nahe wie möglich an den tatsächlichen Wahrscheinlichkeiten vorherzusagen.

Wie wir sehen, ist die Regel der semi-korrekten Wertung nicht perfekt, aber auch nicht geradezu katastrophal. Dies kann während der Vorhersage sehr nützlich sein! Cagdas Ozgenc hat hier ein großartiges Beispiel , bei dem die Arbeit mit einer unzulässigen / halb ordnungsgemäßen Regel einer streng ordnungsgemäßen Regel vorzuziehen ist. Im Allgemeinen ist der Begriff der semi-korrekten Bewertungsregel nicht sehr verbreitet. Es ist mit falschen Regeln verbunden , die dennoch hilfreich sein können (zB AUC-ROC oder MAE bei der probabilistischen Klassifizierung).

Beachten Sie zum Schluss etwas Wichtiges. Wie Sprinten mit starken Beinen verbunden ist, ist auch die korrekte Wahrscheinlichkeitsklassifizierung mit Genauigkeit verbunden. Es ist unwahrscheinlich, dass ein guter Sprinter schwache Beine hat, und ebenso ist es unwahrscheinlich, dass ein guter Klassifikator eine schlechte Genauigkeit hat. Gleichwohl ist das Gleichsetzen der Genauigkeit mit einer guten Klassifikatorleistung das Gleichsetzen der Beinstärke mit einer guten Sprintleistung. Nicht völlig unbegründet, aber sehr plausibel, um zu unsinnigen Ergebnissen zu führen.

usεr11852 sagt Reinstate Monic
quelle