Warum werden Präzision und Rückruf in der F1-Bewertung anstelle von Präzision und Kapitalwert verwendet?

7

Bei binären Klassifizierungsproblemen scheint der F1-Score häufig als Leistungsmaß verwendet zu werden. Soweit ich verstanden habe, besteht die Idee darin, den besten Kompromiss zwischen Präzision und Rückruf zu finden. Die Formel für die F1-Punktzahl ist in Präzision und Rückruf symmetrisch. Es gibt jedoch (und das stört mich) eine Asymmetrie zwischen Präzision und Erinnerung. Während der Rückruf eine Eigenschaft des Klassifikators ist, die von früheren Wahrscheinlichkeiten unabhängig ist, ist die Genauigkeit eine Größe, die von den vorherigen Wahrscheinlichkeiten abhängt.

Kann mir jemand sagen, was an der Kombination aus Präzision und Rückruf so besonders ist? Warum verwenden wir keine Präzision (das ist der positive Vorhersagewert ) und keinen negativen Vorhersagewert ?

Verwirrung
quelle

Antworten:

4

Die F1-Punktzahl gewichtet Präzision und Rückruf gleichermaßen, aber es gibt einfache Verallgemeinerungen für jeden Fall, in dem Rückruf- / Zeiten wichtiger sind als Präzision. Siehe https://en.wikipedia.org/wiki/F1_score :β

F.β=(1+β2)precichsichÖnreceinllβ2precichsichÖn+receinll

F1 ist nur ein harmonisches Mittel. Der einfache Mittelwert ist nicht ganz sinnvoll, da Präzision und Rückruf dieselben Zähler (wahr positiv), aber unterschiedliche Nenner (Test positiv, Bedingung positiv) haben. Es macht also nur ein harmonisches Mittel Sinn. Ich weiß nicht, ob es mehr Theorie gibt - das einfachste gewichtete Mittel, das Sinn macht.

Ich denke, ich verstehe den Kern Ihres Punktes, den ich umschreibe, um auf die Tatsache hinzuweisen, dass Präzision im Nenner "Test positiv" hat und daher sehr empfindlich dafür ist, wie viel der Klassifikator positiv markiert. Aus diesem Grund sehen Sie beispielsweise nicht so oft Präzisionsrückrufkurven. Sie sehen ROC-Kurven, bei denen es sich um Rückrufspezifitätskurven handelt (wahre positive Rate gegenüber falsch positiver Rate).

Das ist näher an dem, was Sie vorschlagen, aber Sie schlagen PPV gegen NPV vor. Sicher, das könnte abhängig von Ihrem Anwendungsfall gültig sein, aber ich denke, das Argument tendiert dazu, in die andere Richtung zu schneiden, stattdessen zur Rückrufspezifität, nicht zum Präzisions-NPV.

Sean Owen
quelle
0

Wenn es sich um ein rein binäres Klassifizierungsproblem handelt (Klasse A vs. Klasse B), besteht der Vorteil des F-Scores hauptsächlich darin, die Leistung gegenüber einem unausgeglichenen Datensatz (mehr Instanzen einer Klasse als die andere) und Ihrer Frage / Ihrem Anliegen zu charakterisieren ist relevanter. Die Wikipedia-Seite für F-Score- Staaten

" Beachten Sie jedoch, dass die F-Maße die wahren Negative nicht berücksichtigen und dass Maße wie der Phi-Koeffizient, der Matthews-Korrelationskoeffizient, die Informiertheit oder Cohens Kappa vorzuziehen sind, um die Leistung eines binären Klassifikators zu bewerten. "

Wenn der Klassifikator jedoch ein Detektor sein soll , ist man normalerweise mehr an der Leistung in Bezug auf die Zielklasse (positiv) als an der Nichtzielklasse (negativ) interessiert. Darüber hinaus ist das Ziel häufig dasjenige, das im Datensatz unterrepräsentiert ist. In diesem Zusammenhang halte ich es für intuitiver, wissen zu wollen, welcher Teil der Ziele erkannt wird (Rückruf) und wie zuverlässig / sicher jede Erkennung ist (Präzision). Das Wissen, wie gut der Detektor darin ist, Nichtziele nicht zu erkennen (negativer Vorhersagewert), kann einen Wert haben, ist jedoch keine sehr aufschlussreiche Größe, wenn versucht wird, die Leistung eines Zieldetektors mit einem unausgeglichenen Datensatz zu charakterisieren.

Kurz gesagt, der F-Score-Abstimmungsparameter (β) bietet eine intuitivere Möglichkeit, die Wichtigkeit der Erkennung aller Ziele (hoher Rückruf) mit der Wichtigkeit der Erkennung mit hoher Sicherheit (hohe Präzision) in Einklang zu bringen. Beachten Sie auch, dass der F-Score in Form von Typ I- und Typ II-Fehlern geschrieben werden kann (siehe den Wikipedia-Link oben).

Bogatron
quelle