TL; DR
Genauigkeit ist eine falsche Bewertungsregel. Benutze es nicht.
Die etwas längere Version
Eigentlich ist Genauigkeit nicht einmal eine Bewertungsregel. Die Frage, ob es (streng) richtig ist, ist ein Kategoriefehler. Das Beste, was wir sagen können, ist, dass unter zusätzlichen Annahmen Genauigkeit mit einer Bewertungsregel vereinbar ist, die unangemessen, diskontinuierlich und irreführend ist. (Benutze es nicht.)
Deine Verwirrung
Ihre Verwirrung ergibt sich aus der Tatsache, dass Fehlklassifizierungsverluste gemäß dem von Ihnen zitierten Papier ebenfalls keine Bewertungsregel sind.
Die Details: Bewertungsregeln vs. Klassifizierungsbewertungen
Lassen Sie uns die Terminologie korrigieren. Wir sind in einem binären Ergebnis interessiert , und wir haben eine probabilistische Vorhersage q =y∈{0,1}. Wir wissendassP(Y=1)=η>0,5, aber unser Modell q wissen oder auch nichtdass kann.qˆ=Pˆ(Y=1)∈(0,1)P(Y=1)=η>0.5qˆ
Eine scoring Regel ist eine Abbildung , die eine probabilistische Vorhersage nimmt q und ein Ergebnis , y zu einem Verlust,qˆy
s:(qˆ,y)↦s(qˆ,y).
istrichtigewenn sie von in Erwartung optimiert ist q = η . ( „Optimized“ bedeutetRegel „minimiert“, aber einige Autoren Flip Zeichen und versucheneine ScoringRegel zu maximieren.) S iststreng richtigwenn es in Erwartung optimiert istnurdurch q = η .sqˆ=ηsqˆ=η
Wir werden in der Regel bewerten auf vielen Prognosen q i und die Ergebnisse entsprechend y i und durchschnittliche diese Erwartung zu schätzen.sqˆiyi
Was ist nun Genauigkeit ? Bei der Genauigkeit wird keine probabilistische Vorhersage als Argument herangezogen. Es dauert eine Klassifizierung y ∈ { 0 , 1 }yˆ∈{0,1} und ein Ergebnis:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
Daher ist Genauigkeit keine Bewertungsregel . Es ist eine Klassifizierungsbewertung. (Dies ist ein Begriff, den ich gerade erfunden habe; suche ihn nicht in der Literatur.)
Nun, natürlich können wir eine probabilistische Vorhersage wie unser nehmen q und in eine Klassifizierung drehen y . Dazu benötigen wir jedoch die zusätzlichen Annahmen, auf die oben Bezug genommen wurde. Zum Beispiel ist es sehr üblich, einen Schwellenwert θ zu verwenden und zu klassifizieren:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
Ein sehr häufiger Schwellenwert ist . Beachten Sie, dass , wenn wir diese Schwelle verwenden und dann die Genauigkeit über viele Vorhersagen zu bewerten q i (wie oben) und die Ergebnisse entsprechen y i , wir die Fehlklassifikation Verlust dann kommen exakt nach buja et al. Ein Fehlklassifizierungsverlust ist somit auch keine Bewertungsregel, sondern eine Klassifizierungsbewertung.θ=0.5qˆiyi
Wenn wir einen Klassifizierungsalgorithmus wie oben verwenden, können wir eine Klassifizierungsbewertung in eine Bewertungsregel umwandeln. Der Punkt ist, dass wir die zusätzlichen Annahmen des Klassifikators benötigen. Und dass die Genauigkeit oder Fehlklassifikation Verlust oder was auch immer andere Klassifikations Auswertung wir können dann hängt weniger von der probabilistischen Vorhersage q und mehr auf der Art , wie wir drehen q in eine Klassifizierung y = y ( q , θ ) . Die Klassifizierung Auswertung so zu optimieren nach einem roten Hering chasing sein, wenn wir bei der Bewertung der wirklich interessiert q .qˆqˆyˆ=yˆ(qˆ,θ)qˆ
Was ist nun an diesen Bewertungsregeln unter zusätzlichen Annahmen falsch? Nichts im vorliegenden Fall.unter der implizitenθ=0,5, wirdGenauigkeit maximieren und Fehlklassifikation Verlust über alle möglichen minimieren q ∈(0,1). In diesem Fall ist unsere Bewertungsregel unter zusätzlichen Annahmen richtig.qˆ=ηθ=0.5qˆ∈(0,1)
Beachten Sie, dass was für die Genauigkeit wichtig ist oder eine Fehlklassifikation Verlust ist nur eine Frage: klassifizieren wir ( y ) alles , da die Mehrheit der Klasse oder nicht? yˆWenn wir dies tun, sind Genauigkeits- oder Fehlklassifizierungsverluste erfreulich. Wenn nicht, sind sie es nicht. Was über diese Frage wichtig ist , ist , dass es nur eine sehr schwache Verbindung zur Qualität der hat q .qˆ
Folglich unser Scoring-Regeln-under-Zusatz Annahmen sind nicht streng richtig, wie jeder q ≥ R auf die gleiche Klassifizierung Auswertung führen. Wir könnten den Standard verwenden θ = 0,5 , glauben , dass die Mehrheit der Klasse mit auftritt qqˆ≥θθ=0.5 und Klassifizieren allem als Mehrheitsklasse, weil q & ge ; θ . Die Genauigkeit ist hoch, aber wir haben keinen Anreizunsere zu verbessern q auf den korrekten Wert von η .qˆ=0.99qˆ≥θqˆη
Oder wir hätten eine umfassende Analyse der asymmetrischen Kosten einer Fehlklassifizierung durchgeführt und entschieden, dass die beste Klassifizierungswahrscheinlichkeitsschwelle tatsächlich θ=0.2 . Dies kann beispielsweise passieren, wenn bedeutet, dass Sie an einer Krankheit leiden. Es wäre besser, Sie selbst zu behandeln , wenn Sie nicht an der Krankheit (leiden y = 0 ), und nicht umgekehrt, so dass es sinnvoll zu behandeln Menschen machen kann , auch wenn es eine geringe Wahrscheinlichkeit vorhergesagt (klein ist q ) Sie leiden darunter. Wir könnten dann ein horrend falsches Modell, das glaubt , dass die wahre Mehrheitsklasse tritt nur bei qy=1y=0qˆ - aber wegen der Kosten von Fehlklassifikation, wir noch Klassifizieren alles wie diese (angenommen) Minderheit Klasse, weil wieder q & ge ; & thgr; . Wenn wir dies tun, lassen uns Genauigkeits- oder Fehlklassifizierungsverluste vermuten, dass wir alles richtig machen, auch wenn unser Vorhersagemodell nicht einmal herausfindet, welche unserer beiden Klassen die Mehrheit darstellt.qˆ=0.25qˆ≥θ
Daher können Genauigkeits- oder Fehlklassifizierungsverluste irreführend sein.
Darüber hinaus Genauigkeit und misclassification Verlust ist unsachgemäß unter den zusätzlichen Annahmen in komplexeren Situationen , in denen die Ergebnisse nicht iid sind. Frank Harrell zitiert in seinem Blog-Beitrag Schäden durch Klassifizierungsgenauigkeit und andere diskontinuierliche unkorrekte Genauigkeits-Bewertungsregeln ein Beispiel aus einem seiner Bücher, in dem die Verwendung von Genauigkeit oder Fehlklassifizierungsverlust zu einem falsch spezifizierten Modell führt, da sie nicht durch die richtige bedingte Vorhersage optimiert werden Wahrscheinlichkeit.
θ
Weitere Informationen finden Sie unter Warum ist Genauigkeit nicht das beste Maß für die Bewertung von Klassifizierungsmodellen? .
Die Quintessenz
Verwenden Sie keine Genauigkeit. Noch Fehlklassifizierungsverlust.
Der Nitpick: "streng" vs. "streng"
Sollten wir über "strenge" Regeln für die richtige Wertung sprechen oder über "strenge" Regeln für die richtige Wertung? "Streng" ändert die "richtige" und nicht die "Bewertungsregel". (Es gibt "korrekte Bewertungsregeln" und "streng korrekte Bewertungsregeln", aber keine "strengen Bewertungsregeln".) Daher sollte "streng" ein Adverb und kein Adjektiv sein und "streng" verwendet werden. Wie in der Literatur üblich, zB die Arbeiten von Tilmann Gneiting.