Warum ist die Summe aus Präzision und Rückruf keine angemessene Maßnahme?

12

Was ist die beste Art und Weise zu erklären , warum $\text{Precision} + \text{Recall}$ ist nicht eine gute Maßnahme, sagen wir, im Vergleich zu F1?

precision-recall matt
quelle

Was würde es bedeuten? Wie würdest du das interpretieren? Was würde es dir eigentlich sagen?

Matthew Drury

1

Sie sollten den Titel ändern, indem Sie "Precision + Recall" durch "die Summe von Precision und Recall" ersetzen, um die gewünschten Informationen klarer darzustellen.

g3o2

@ g3o2 Sprechen wir hier über Grammatik oder vermisse ich etwas Größeres?

Matt

Nicht wirklich, nur um zu bemerken, dass Precision & Recall auch gelesen werden kann, insbesondere wenn nur der Titel gelesen wird.

g3o2

18

Es ist nicht so, dass per se ein schlechtes Maß ist, es ist nur so, dass die resultierende Zahl für sich genommen nichts Bedeutungsvolles darstellt. Sie sind auf dem richtigen Weg ... wir suchen einen kombinierten Durchschnitt der beiden Leistungskennzahlen, da wir uns nicht zwischen ihnen entscheiden müssen. $\text{Precision} + \text{Recall}$

Denken Sie daran, dass Präzision und Rückruf definiert sind als:

Precision = \frac{True Positive}{Predicted Positive}

$\text{Precision} = \frac{\text{True Positive}}{\text{Predicted Positive}}$

Recall = \frac{True Positive}{Actual Positive}

$\text{Recall} = \frac{\text{True Positive}}{\text{Actual Positive}}$

Da beide unterschiedliche Nenner haben, ergibt sich durch Addition : ... das ist nicht besonders nützlich.

\frac{True Positive (Predicted Positive + Actual Positive)}{Predicted Positive \times Actual Positive}

$\frac{\text{True Positive}\left(\text{Predicted Positive}+\text{Actual Positive}\right)}{\text{Predicted Positive}\times \text{Actual Positive}}$

Kehren wir zum Addieren zurück und nehmen Sie eine Optimierung vor: Multiplizieren Sie sie mit so dass sie in der richtigen Skala bleiben,. Dies ist der bekannte Durchschnitt von ihnen. $\frac{1}{2}$ $[0-1]$

\frac{1}{2} \times (\frac{Richtig positiv}{Positiv vorhergesagt} + \frac{Richtig positiv}{Tatsächlich positiv})

$\frac{1}{2} \times \left( \frac{\text{True Positive}}{\text{Predicted Positive}} + \frac{\text{True Positive}}{\text{Actual Positive}} \right)$

Wir haben also zwei Größen, die denselben Zähler, aber unterschiedliche Nenner haben, und wir möchten den Durchschnitt von ihnen bilden. Was machen wir? Nun, wir könnten sie umdrehen und ihre Umkehrung nehmen. Dann könnten Sie sie zusammenfassen. Damit sie "richtig herum" sind, nimmst du wieder das Gegenteil.

Dieser Vorgang des Invertierens und anschließenden erneuten Invertierens wandelt einen "regulären" Mittelwert in einen harmonischen Mittelwert um. Es passiert einfach so , dass das harmonische Mittel von Precision und Recall ist die F1-Statistik. Der harmonische Mittelwert wird im Allgemeinen anstelle des arithmetischen Standardmittels verwendet, wenn es um Raten geht, wie wir es hier tun.

Letztendlich ist die F1-Statistik nur der Durchschnitt aus Genauigkeit und Abruf, und Sie verwenden sie, weil Sie nicht das eine oder andere auswählen möchten, um die Leistung des Modells zu bewerten.

David Ciani
quelle

2

Wirklich vielen Dank für die freundliche Entwicklung des harmonischen Mittels aus dem algebraischen Mittelwert! Aber was mir wahrscheinlich nicht so recht gefällt, ist der Teil, in dem Sie sagen "was nicht besonders nützlich ist". In diesem Sinne habe ich jetzt die beiden anderen Antworten kommentiert. Nur für den Fall, dass Sie noch einen Schritt weiter gehen möchten. Stellen Sie sich vor, ich möchte den besten Klassifikator aus einer Gruppe von Klassifikatoren auswählen, die mit demselben Datensatz getestet wurden.

Matt

@matt: Wenn Sie eine beliebige kombinierte Kennzahl verwenden, wird Ihre Modellauswahl auf einen bestimmten Punkt gebracht, jedoch nicht darüber hinaus. Zwei Modelle mit dem gleichen F1-Wert können völlig unterschiedliche Werte für Abruf und Präzision anzeigen. Daher müssen Sie bei gleichem F1 zwischen Recall und Precision wählen.

g3o2

4

Die kurze Antwort lautet: Sie würden nicht erwarten, dass die Summe von zwei Prozentsätzen mit zwei verschiedenen Nennern eine bestimmte Bedeutung hat. Daher ist der Ansatz, ein Durchschnittsmaß wie F1, F2 oder F0,5 zu verwenden. Letztere behalten mindestens das prozentuale Eigentum. Was ist mit ihrer Bedeutung?

Das Schöne an Precision und Recall als getrennten Maßstäben ist die einfache Interpretation und die Tatsache, dass sie leicht mit den Geschäftszielen des Modells konfrontiert werden können. Die Präzision misst den Prozentsatz true positivesder Fälle, die positivevom Modell als klassifiziert werden. Rückruf misst den Prozentsatz vontrue positives vom Modell gefundenen Werts in allen trueFällen. Bei vielen Problemen müssen Sie zwischen der Optimierung von Precision und Recall wählen.

Jedes Durchschnittsmaß verliert die obige Interpretation und läuft darauf hinaus, welches Maß Sie am meisten bevorzugen. F1 bedeutet, dass Sie entweder nicht wissen, ob Sie Recall oder Precision bevorzugen, oder jedem von ihnen das gleiche Gewicht zuweisen. Wenn Sie Recall für wichtiger halten als Precision, sollten Sie ihm auch in der Durchschnittsberechnung ein höheres Gewicht zuweisen (z. B. F2) und umgekehrt (z. B. F0.5).

g3o2
quelle

3

Das Hinzufügen der beiden ist eine schlechte Maßnahme. Sie erhalten eine Punktzahl von mindestens 1, wenn Sie alles als positiv markieren, da dies per Definition ein Rückruf von 100% ist. Und Sie werden ein wenig Präzision darüber bekommen. Das in F1 verwendete geometrische Mittel hebt das schwache Glied hervor, da es multiplikativ ist; Sie müssen sich zumindest mit Präzision und Gedächtnis zufrieden geben, um ein anständiges F1-Ergebnis zu erzielen.

Ben Ogorek
quelle

Eigentlich ist es genau diese Betonung der Schwachstelle, die ich für überflüssig befunden habe, wenn Präzision und Rückruf eher sinnvoll als nervös sind. Wenn sie beide nicht nervös sind, bin ich mir nicht sicher, ob ich den Mehrwert einer Metrik sehe, die die Ähnlichkeit zwischen ihnen hervorhebt, oder sie aufgrund der Größe ihrer Differenz unterschiedlich bestraft. Diese genaue Eigenschaft hat teilweise meine ursprüngliche Frage hier motiviert.

Matt

Klingt nach zusätzlicher Arbeit für mich. Wenn Sie einen prozentualen Wiedererkennungswert genauso schätzen wie eine Genauigkeit, dann ist wahrscheinlich Ihr Maß dasjenige, das Sie verwenden müssen. Aber ich kann mir nicht vorstellen, dass du es tun würdest. Rückruf wird wahrscheinlich dominieren, auch wenn Sie die Reichweiten reduzieren. Sie könnten den Rückruf mit Präzision von Apfel zu Apfel skalieren, aber das ist wieder mehr Arbeit und macht die Interpretation weniger klar.

Ben Ogorek

1

Ich bin mir nicht sicher, warum Rückruf dominieren sollte (?), Aber das Skalieren des Rückrufs von Apfel zu Apfel mit Genauigkeit könnte hier oder anderswo eine interessante Diskussion sein

Matt

3

Der F1-Score ist besonders wertvoll bei stark asymmetrischen Wahrscheinlichkeiten.

Betrachten Sie das folgende Beispiel: Wir testen auf eine seltene, aber gefährliche Krankheit. Nehmen wir an, dass in einer Stadt mit 1.000.000 Einwohnern nur 100 Menschen infiziert sind.

Test A erkennt alle diese 100 Positiven. Es weist jedoch auch eine 50% ige Falsch-Positiv-Quote auf: Weitere 500.000 Menschen werden fälschlicherweise als krank gemeldet.

In der Zwischenzeit fehlen bei Test B 10% der Infizierten, es werden jedoch nur 1.000 falsch-positive Ergebnisse erzielt (0,1% falsch-positive Ergebnisse).

Lassen Sie uns die Punktzahlen berechnen. Für Test A ist die Genauigkeit effektiv 0; Rückruf wird genau 1 sein. Für Test B wird die Genauigkeit immer noch ziemlich gering sein, etwa 0,01. Rückruf wird gleich 0,9 sein.

Wenn wir naiv das arithmetische Mittel der Genauigkeit addieren oder nehmen und uns erinnern, ergibt dies 1 (0,5) für Test A und 0,91 (0,455) für Test B. Test A scheint also geringfügig besser zu sein.

Aus praktischer Sicht ist Test A jedoch wertlos: Wenn ein Mensch positiv getestet wird, ist seine Wahrscheinlichkeit, wirklich krank zu sein, 1 von 50.000! Test B hat mehr praktische Bedeutung: Sie können 1.100 Personen ins Krankenhaus bringen und sie genau beobachten. Dies spiegelt sich genau in der F1-Wertung wider: Für Test A liegt er nahe bei 0,0002, für Test B bei (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, was immer noch ziemlich schlecht ist, aber ungefähr 50-mal besser.

Diese Übereinstimmung zwischen Punktzahl und praktischer Bedeutung macht die F1-Punktzahl wertvoll.

imiltemp
quelle

Vielen Dank. Vielleicht habe ich mich nicht ausreichend in den Fall vertieft, aber hängt diese Aufklärung nicht von dem pragmatischen Vorteil ab, den "Positiven" in einem realen Bereich Ressourcen zuzuweisen, in dem das Erkennen eines Ergebnisses (eines Positiven) das Ziel ist? Dies ist nicht immer der Fall, dass das Ziel darin besteht, ein Ergebnis zu ermitteln, oder? Manchmal möchte man nur wissen, ob es sich um einen Apfel oder ein Paar handelt, und beide Arten von Fehlern haben die gleichen praktischen Kosten in der Praxis.

Matt

Was ich nicht sehe, ist vor allem, wie diese Eigenschaft, "besser" zu sein, auf Fälle skaliert, in denen der (absolute) Unterschied zwischen Präzision und Erinnerung weniger pathologisch ist. Vielleicht ist die Intuition von Natur aus da, aber ich bin noch nicht da ...

matt

1

Im Allgemeinen werden durch Maximieren des geometrischen Mittels ähnliche Werte hervorgehoben. Nehmen wir zum Beispiel zwei Modelle: Das erste hat (Genauigkeit, Rückruf) = (0,8, 0,8) und das zweite hat (Genauigkeit, Rückruf) = (0,6, 1,0). Bei Verwendung des algebraischen Mittels wären beide Modelle gleichwertig. Mit dem geometrischen Mittelwert ist das erste Modell besser, da es keine Genauigkeit für den Rückruf bietet.

rundes Quadrat
quelle

1

Danke vielmals. In der Praxis sehe ich jedoch keine allgemeingültige Präferenz zwischen zB (0,8, 0,8) und (0,7, 0,9). Vielleicht haben Sie etwas Tieferes angedeutet, indem Sie "Precision for Recall" abwägen - was ich selbst (noch) nicht aufgreife. Für mich ergibt die algebraische Mittelung von zwei Arten von Fehlern einfach den einfachsten Durchschnitt von ihnen, ohne jegliche Neigung zur Ähnlichkeit. ZB könnte ich die einfache Summe von Präzision und Rückruf verwenden, um herauszufinden, welcher der beiden Klassifikatoren weniger Fehler verursacht.

Matt

Wir können das bis zum Äußersten nehmen. Angenommen, Sie haben ein System mit (Genauigkeit, Rückruf) = (0,6, 0,6). Das heißt, wenn es "Ja" sagt, ist es 60% der Zeit richtig und es fängt 60% der "Ja" -Ereignisse korrekt ab. Vergleichen wir dies nun mit einem System mit (0.3, 1). Das hat einen besseren algebraischen Mittelwert, aber was macht es? Es fängt alle "Ja" -Ereignisse ab, sagt aber auch fälschlicherweise viel "Ja" . Ist das gut? Ist das schlecht? Es hängt davon ab, warum Sie das System erstellen. Welche Aktion werden Sie ausführen, wenn Sie eine "Ja" -Vorhersage sehen? Was ist die Folge des Fehlens eines "Ja" -Ereignisses?

roundsquare

1

Keine dieser Maßnahmen entspricht den Regeln für eine korrekte Genauigkeitsbewertung

Frank Harrell,

@roundsquare vielen dank, aber für nicht-pathologische fälle - bei denen beide nicht in der nähe von 0 und 1 sind - brauche ich wahrscheinlich hilfe, um den vorteil der betonung der ähnlichkeit zwischen den beiden im letzten maß zu erkennen!

Matt

@FrankHarrell danke für den Hinweis auf "den Elefanten im Raum"

matt

Warum ist die Summe aus Präzision und Rückruf keine angemessene Maßnahme?

Antworten: