Warum ist das F-Maß ein harmonisches Mittel und kein arithmetisches Mittel der Präzisions- und Rückrufmaße?

Question 1

Wenn wir das F-Maß unter Berücksichtigung von Präzision und Rückruf berechnen, nehmen wir das harmonische Mittel der beiden Maße anstelle eines einfachen arithmetischen Mittels.

Was ist der intuitive Grund für die Annahme des harmonischen Mittelwerts und nicht eines einfachen Durchschnitts?

Question 2

Hier haben wir bereits einige ausführliche Antworten, aber ich dachte, weitere Informationen darüber wären hilfreich für einige Leute, die tiefer eintauchen möchten (insbesondere warum F messen).

Nach der Messtheorie sollte das zusammengesetzte Maß die folgenden 6 Definitionen erfüllen:

Verbundenheit (zwei Paare können bestellt werden) und Transitivität (wenn e1> = e2 und e2> = e3, dann e1> = e3)
Unabhängigkeit: Zwei Komponenten tragen unabhängig voneinander zur Wirksamkeit bei.
Thomsen-Bedingung: Da wir bei einem konstanten Rückruf (Genauigkeit) einen Unterschied in der Wirksamkeit für zwei Genauigkeitswerte (Rückruf) feststellen, kann dieser Unterschied nicht durch Ändern des konstanten Werts beseitigt oder umgekehrt werden.
Eingeschränkte Lösbarkeit.
Jede Komponente ist wesentlich: Eine Variation in einer, während die andere konstant bleibt, führt zu einer Variation in der Wirksamkeit.
Archimedische Eigenschaft für jede Komponente. Es wird lediglich sichergestellt, dass die Intervalle einer Komponente vergleichbar sind.

Wir können dann ableiten und die Funktion der Wirksamkeit erhalten:

Und normalerweise verwenden wir nicht die Effektivität, sondern den viel einfacheren F-Score, weil :

Nun haben wir die allgemeine Formel des F-Maßes:

Hier können wir durch die Einstellung von Beta mehr Wert auf Rückruf oder Präzision legen, da Beta wie folgt definiert ist:

Wenn wir Gewichtungsrückruf wichtiger als Präzision sind (alle relevanten sind ausgewählt), können wir Beta auf 2 setzen und erhalten das F2-Maß. Und wenn wir die Umkehr- und Gewichtsgenauigkeit höher als beim Abrufen machen (so viele ausgewählte Elemente sind relevant wie möglich, zum Beispiel in einigen Grammatikfehlerkorrektur-Szenarien wie CoNLL ), setzen wir Beta einfach auf 0,5 und erhalten das F0.5-Maß. Und natürlich können wir Beta auf 1 setzen, um das am häufigsten verwendete F1-Maß (harmonisches Mittel der Präzision und des Rückrufs) zu erhalten.

Ich denke, bis zu einem gewissen Grad habe ich bereits geantwortet, warum wir das arithmetische Mittel nicht verwenden.

Verweise:

Question 3

Um zu erklären, betrachten Sie zum Beispiel, was der Durchschnitt von 30 Meilen pro Stunde und 40 Meilen pro Stunde ist? Wenn Sie 1 Stunde mit jeder Geschwindigkeit fahren, ist die Durchschnittsgeschwindigkeit über die 2 Stunden in der Tat der arithmetische Durchschnitt, 35 Meilen pro Stunde.

Wenn Sie jedoch bei jeder Geschwindigkeit dieselbe Strecke fahren - beispielsweise 10 Meilen -, ist die Durchschnittsgeschwindigkeit über 20 Meilen das harmonische Mittel von 30 und 40, ungefähr 34,3 Meilen pro Stunde.

Der Grund dafür ist, dass für die Gültigkeit des Durchschnitts die Werte wirklich in denselben skalierten Einheiten angegeben werden müssen. Meilen pro Stunde müssen über die gleiche Anzahl von Stunden verglichen werden. Um über die gleiche Anzahl von Meilen zu vergleichen, müssen Sie stattdessen die durchschnittlichen Stunden pro Meile berechnen, was genau das ist, was der harmonische Mittelwert bewirkt.

Präzision und Rückruf haben beide echte Positive im Zähler und unterschiedliche Nenner. Um sie zu mitteln, ist es wirklich nur sinnvoll, ihre Kehrwerte zu mitteln, also das harmonische Mittel.

Question 4

Weil es Extremwerte mehr bestraft.

Betrachten Sie eine triviale Methode (z. B. immer Klasse A zurückgeben). Es gibt unendlich viele Datenelemente der Klasse B und ein einzelnes Element der Klasse A:

Precision: 0.0
Recall:    1.0

Wenn man das arithmetische Mittel nimmt, hätte es 50% korrekt. Obwohl es das schlechteste Ergebnis ist! Mit dem harmonischen Mittelwert ist das F1-Maß 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Mit anderen Worten, um ein hohes F1 zu haben, müssen Sie sowohl eine hohe Präzision als auch einen hohen Rückruf haben.

Question 5

Die obigen Antworten sind gut erklärt. Dies ist nur eine kurze Referenz, um die Natur des arithmetischen Mittelwerts und des harmonischen Mittelwerts mit Plots zu verstehen. Wie Sie dem Diagramm entnehmen können, betrachten Sie die X- und Y-Achse als Präzision und Rückruf und die Z-Achse als F1-Punktzahl. Aus der Darstellung des harmonischen Mittels sollten also sowohl die Präzision als auch der Rückruf gleichmäßig dazu beitragen, dass der F1-Wert im Gegensatz zum arithmetischen Mittelwert steigt.

Dies ist für das arithmetische Mittel.

Dies ist für das harmonische Mittel.

Question 6

Das harmonische Mittel ist das Äquivalent des arithmetischen Mittels für Kehrwerte von Größen, die durch das arithmetische Mittel gemittelt werden sollen. Genauer gesagt, mit dem harmonischen Mittelwert transformieren Sie alle Ihre Zahlen in die "durchschnittliche" Form (indem Sie den Kehrwert nehmen), nehmen ihren arithmetischen Mittelwert und transformieren das Ergebnis dann zurück in die ursprüngliche Darstellung (indem Sie den Kehrwert erneut nehmen).

Präzision und Rückruf sind "natürlich" Kehrwerte, da ihr Zähler gleich und ihre Nenner unterschiedlich sind. Brüche sind im arithmetischen Mittel sinnvoller zu mitteln, wenn sie denselben Nenner haben.

Nehmen wir für mehr Intuition an, dass wir die Anzahl der echten positiven Elemente konstant halten. Indem Sie dann das harmonische Mittel der Präzision und des Rückrufs nehmen, nehmen Sie implizit das arithmetische Mittel der falsch positiven und der falsch negativen Ergebnisse. Dies bedeutet im Grunde, dass falsch positive und falsch negative Ergebnisse für Sie gleichermaßen wichtig sind, wenn die wahren positiven Werte gleich bleiben. Wenn ein Algorithmus N mehr falsch positive Elemente, aber N weniger falsch negative Elemente enthält (bei gleichen wahren positiven Elementen), bleibt das F-Maß gleich.

Mit anderen Worten, das F-Maß ist geeignet, wenn:

Fehler sind gleichermaßen schlimm, egal ob sie falsch positiv oder falsch negativ sind
Die Anzahl der Fehler wird relativ zur Anzahl der echten Positiven gemessen
wahre Negative sind uninteressant

Punkt 1 kann wahr sein oder nicht, es gibt gewichtete Varianten des F-Maßes, die verwendet werden können, wenn diese Annahme nicht wahr ist. Punkt 2 ist ganz natürlich, da wir erwarten können, dass die Ergebnisse skaliert werden, wenn wir nur immer mehr Punkte klassifizieren. Die relativen Zahlen sollten gleich bleiben.

Punkt 3 ist sehr interessant. In vielen Anwendungen sind Negative die natürliche Standardeinstellung, und es kann sogar schwierig oder willkürlich sein, anzugeben, was wirklich als echtes Negativ gilt. Zum Beispiel hat ein Feueralarm jede Sekunde, jede Nanosekunde, jedes Mal, wenn eine Planck-Zeit verstrichen ist, ein echtes negatives Ereignis usw. Sogar ein Stück Stein hat diese echten negativen Branderkennungsereignisse die ganze Zeit.

Oder in einem Gesichtserkennungsfall geben Sie meistens Milliarden möglicher Bereiche im Bild "nicht korrekt zurück ", aber das ist nicht interessant. Die interessanten Fälle sind , wenn Sie tun eine vorgeschlagene Erkennung zurückgeben oder wenn Sie sollten es zurück.

Im Gegensatz dazu kümmert sich die Klassifizierungsgenauigkeit gleichermaßen um echte Positive und echte Negative und ist besser geeignet, wenn die Gesamtzahl der Stichproben (Klassifizierungsereignisse) genau definiert und eher gering ist.

Answer 1

85

Wenn wir das F-Maß unter Berücksichtigung von Präzision und Rückruf berechnen, nehmen wir das harmonische Mittel der beiden Maße anstelle eines einfachen arithmetischen Mittels.

Was ist der intuitive Grund für die Annahme des harmonischen Mittelwerts und nicht eines einfachen Durchschnitts?

machine-learning classification data-mining Londoner Typ
quelle

1

Die Intuition besteht darin, Präzision und Rückruf in Einklang zu bringen (normalerweise die beste Messung, aber in einigen Fällen möchten Sie Präzision oder Rückruf maximieren, was eine andere Geschichte ist). Sie können keinen hohen f-Score erzielen, wenn einer der beiden sehr niedrig ist.

Grünheit

1

cse.unsw.edu.au/~teachadmin/info/harmonic3.html Dies ist eine gute Ressource zum Verständnis von HM

Sudip Bhandari

2

Korrigieren Sie den obigen Link: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm oder das Original @ archive.org

stason

Answer 2

1

Die Intuition besteht darin, Präzision und Rückruf in Einklang zu bringen (normalerweise die beste Messung, aber in einigen Fällen möchten Sie Präzision oder Rückruf maximieren, was eine andere Geschichte ist). Sie können keinen hohen f-Score erzielen, wenn einer der beiden sehr niedrig ist.

Grünheit

Answer 3

1

cse.unsw.edu.au/~teachadmin/info/harmonic3.html Dies ist eine gute Ressource zum Verständnis von HM

Sudip Bhandari

Answer 4

2

Korrigieren Sie den obigen Link: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm oder das Original @ archive.org

stason

Answer 5

Hier haben wir bereits einige ausführliche Antworten, aber ich dachte, weitere Informationen darüber wären hilfreich für einige Leute, die tiefer eintauchen möchten (insbesondere warum F messen).

Nach der Messtheorie sollte das zusammengesetzte Maß die folgenden 6 Definitionen erfüllen:

Verbundenheit (zwei Paare können bestellt werden) und Transitivität (wenn e1> = e2 und e2> = e3, dann e1> = e3)
Unabhängigkeit: Zwei Komponenten tragen unabhängig voneinander zur Wirksamkeit bei.
Thomsen-Bedingung: Da wir bei einem konstanten Rückruf (Genauigkeit) einen Unterschied in der Wirksamkeit für zwei Genauigkeitswerte (Rückruf) feststellen, kann dieser Unterschied nicht durch Ändern des konstanten Werts beseitigt oder umgekehrt werden.
Eingeschränkte Lösbarkeit.
Jede Komponente ist wesentlich: Eine Variation in einer, während die andere konstant bleibt, führt zu einer Variation in der Wirksamkeit.
Archimedische Eigenschaft für jede Komponente. Es wird lediglich sichergestellt, dass die Intervalle einer Komponente vergleichbar sind.

Wir können dann ableiten und die Funktion der Wirksamkeit erhalten:

Und normalerweise verwenden wir nicht die Effektivität, sondern den viel einfacheren F-Score, weil :

Nun haben wir die allgemeine Formel des F-Maßes:

Hier können wir durch die Einstellung von Beta mehr Wert auf Rückruf oder Präzision legen, da Beta wie folgt definiert ist:

Wenn wir Gewichtungsrückruf wichtiger als Präzision sind (alle relevanten sind ausgewählt), können wir Beta auf 2 setzen und erhalten das F2-Maß. Und wenn wir die Umkehr- und Gewichtsgenauigkeit höher als beim Abrufen machen (so viele ausgewählte Elemente sind relevant wie möglich, zum Beispiel in einigen Grammatikfehlerkorrektur-Szenarien wie CoNLL ), setzen wir Beta einfach auf 0,5 und erhalten das F0.5-Maß. Und natürlich können wir Beta auf 1 setzen, um das am häufigsten verwendete F1-Maß (harmonisches Mittel der Präzision und des Rückrufs) zu erhalten.

Ich denke, bis zu einem gewissen Grad habe ich bereits geantwortet, warum wir das arithmetische Mittel nicht verwenden.

Verweise:

Answer 6

Um zu erklären, betrachten Sie zum Beispiel, was der Durchschnitt von 30 Meilen pro Stunde und 40 Meilen pro Stunde ist? Wenn Sie 1 Stunde mit jeder Geschwindigkeit fahren, ist die Durchschnittsgeschwindigkeit über die 2 Stunden in der Tat der arithmetische Durchschnitt, 35 Meilen pro Stunde.

Wenn Sie jedoch bei jeder Geschwindigkeit dieselbe Strecke fahren - beispielsweise 10 Meilen -, ist die Durchschnittsgeschwindigkeit über 20 Meilen das harmonische Mittel von 30 und 40, ungefähr 34,3 Meilen pro Stunde.

Der Grund dafür ist, dass für die Gültigkeit des Durchschnitts die Werte wirklich in denselben skalierten Einheiten angegeben werden müssen. Meilen pro Stunde müssen über die gleiche Anzahl von Stunden verglichen werden. Um über die gleiche Anzahl von Meilen zu vergleichen, müssen Sie stattdessen die durchschnittlichen Stunden pro Meile berechnen, was genau das ist, was der harmonische Mittelwert bewirkt.

Präzision und Rückruf haben beide echte Positive im Zähler und unterschiedliche Nenner. Um sie zu mitteln, ist es wirklich nur sinnvoll, ihre Kehrwerte zu mitteln, also das harmonische Mittel.

Answer 7

7

Danke, das ist ein gutes Argument dafür, warum dies aus der Theorie unterstützt wird. Meine Antwort war eher pragmatisch.

Hat aufgehört - Anony-Mousse

Answer 8

76

Weil es Extremwerte mehr bestraft.

Betrachten Sie eine triviale Methode (z. B. immer Klasse A zurückgeben). Es gibt unendlich viele Datenelemente der Klasse B und ein einzelnes Element der Klasse A:

Precision: 0.0
Recall:    1.0

Wenn man das arithmetische Mittel nimmt, hätte es 50% korrekt. Obwohl es das schlechteste Ergebnis ist! Mit dem harmonischen Mittelwert ist das F1-Maß 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Mit anderen Worten, um ein hohes F1 zu haben, müssen Sie sowohl eine hohe Präzision als auch einen hohen Rückruf haben.

Hat aufgehört - Anony-Mousse
quelle

Wenn der Rückruf 0.0 ist, muss die Genauigkeit größer als 0.0 sein, oder? Aber ich verstehe den Punkt in Ihrem Beispiel. Schön erklärt - Danke.

Londoner Typ

1

In Ihrem Beispiel beträgt die Genauigkeit für Klasse A 0,5 anstelle von 0 und der Rückruf für Klasse A 1; Die Genauigkeit für Klasse B ist 0 und der Rückruf für Klasse B ist 0, wie wir sehen werden. Ich gehe davon aus, dass Ihre ausgeglichene Klasse bedeutet, dass die wahren Bezeichnungen A und B sind. jedes gilt für 50% der Daten.

Grünheit

Machen wir unendlich viele Elemente der Klasse B und ein einzelnes Element der Klasse A. Es ändert nichts an der Mathematik hinter F1.

Hat aufgehört - Anony-Mousse

2

Es ist nicht nur eine Heuristik, mehr Gleichgewicht zu wählen. Das harmonische Mittel gibt es nur dann, wenn die Einheiten dieser Verhältnisse sinnvoll sind. Mean hätte im Vergleich keine Bedeutung

Sean Owen

Wo steht "heuristisch" und wo unterscheidet sich Ihr Kommentar von meiner Antwort? Aber: F-Maß ist eine Heuristik, da es voraussetzt, dass Präzision und Rückruf gleichermaßen wichtig sind. Deshalb muss der Beta-Begriff gewählt werden - heuristisch verwendet man normalerweise Beta = 1.

Hat aufgehört - Anony-Mousse

Answer 9

Wenn der Rückruf 0.0 ist, muss die Genauigkeit größer als 0.0 sein, oder? Aber ich verstehe den Punkt in Ihrem Beispiel. Schön erklärt - Danke.

Londoner Typ

Answer 10

1

In Ihrem Beispiel beträgt die Genauigkeit für Klasse A 0,5 anstelle von 0 und der Rückruf für Klasse A 1; Die Genauigkeit für Klasse B ist 0 und der Rückruf für Klasse B ist 0, wie wir sehen werden. Ich gehe davon aus, dass Ihre ausgeglichene Klasse bedeutet, dass die wahren Bezeichnungen A und B sind. jedes gilt für 50% der Daten.

Grünheit

Answer 11

Machen wir unendlich viele Elemente der Klasse B und ein einzelnes Element der Klasse A. Es ändert nichts an der Mathematik hinter F1.

Hat aufgehört - Anony-Mousse

Answer 12

2

Es ist nicht nur eine Heuristik, mehr Gleichgewicht zu wählen. Das harmonische Mittel gibt es nur dann, wenn die Einheiten dieser Verhältnisse sinnvoll sind. Mean hätte im Vergleich keine Bedeutung

Sean Owen

Answer 13

Wo steht "heuristisch" und wo unterscheidet sich Ihr Kommentar von meiner Antwort? Aber: F-Maß ist eine Heuristik, da es voraussetzt, dass Präzision und Rückruf gleichermaßen wichtig sind. Deshalb muss der Beta-Begriff gewählt werden - heuristisch verwendet man normalerweise Beta = 1.

Hat aufgehört - Anony-Mousse

Answer 14

Die obigen Antworten sind gut erklärt. Dies ist nur eine kurze Referenz, um die Natur des arithmetischen Mittelwerts und des harmonischen Mittelwerts mit Plots zu verstehen. Wie Sie dem Diagramm entnehmen können, betrachten Sie die X- und Y-Achse als Präzision und Rückruf und die Z-Achse als F1-Punktzahl. Aus der Darstellung des harmonischen Mittels sollten also sowohl die Präzision als auch der Rückruf gleichmäßig dazu beitragen, dass der F1-Wert im Gegensatz zum arithmetischen Mittelwert steigt.

Dies ist für das arithmetische Mittel.

Dies ist für das harmonische Mittel.

Answer 15

Bitte verwenden Sie Formatierungswerkzeuge, um Ihre Antwort richtig zu bearbeiten und zu formatieren. Das Bild sollte hier angezeigt werden, es ist kein Hyperlink.

Morse

Answer 16

Das harmonische Mittel ist das Äquivalent des arithmetischen Mittels für Kehrwerte von Größen, die durch das arithmetische Mittel gemittelt werden sollen. Genauer gesagt, mit dem harmonischen Mittelwert transformieren Sie alle Ihre Zahlen in die "durchschnittliche" Form (indem Sie den Kehrwert nehmen), nehmen ihren arithmetischen Mittelwert und transformieren das Ergebnis dann zurück in die ursprüngliche Darstellung (indem Sie den Kehrwert erneut nehmen).

Präzision und Rückruf sind "natürlich" Kehrwerte, da ihr Zähler gleich und ihre Nenner unterschiedlich sind. Brüche sind im arithmetischen Mittel sinnvoller zu mitteln, wenn sie denselben Nenner haben.

Nehmen wir für mehr Intuition an, dass wir die Anzahl der echten positiven Elemente konstant halten. Indem Sie dann das harmonische Mittel der Präzision und des Rückrufs nehmen, nehmen Sie implizit das arithmetische Mittel der falsch positiven und der falsch negativen Ergebnisse. Dies bedeutet im Grunde, dass falsch positive und falsch negative Ergebnisse für Sie gleichermaßen wichtig sind, wenn die wahren positiven Werte gleich bleiben. Wenn ein Algorithmus N mehr falsch positive Elemente, aber N weniger falsch negative Elemente enthält (bei gleichen wahren positiven Elementen), bleibt das F-Maß gleich.

Mit anderen Worten, das F-Maß ist geeignet, wenn:

Fehler sind gleichermaßen schlimm, egal ob sie falsch positiv oder falsch negativ sind
Die Anzahl der Fehler wird relativ zur Anzahl der echten Positiven gemessen
wahre Negative sind uninteressant

Punkt 1 kann wahr sein oder nicht, es gibt gewichtete Varianten des F-Maßes, die verwendet werden können, wenn diese Annahme nicht wahr ist. Punkt 2 ist ganz natürlich, da wir erwarten können, dass die Ergebnisse skaliert werden, wenn wir nur immer mehr Punkte klassifizieren. Die relativen Zahlen sollten gleich bleiben.

Punkt 3 ist sehr interessant. In vielen Anwendungen sind Negative die natürliche Standardeinstellung, und es kann sogar schwierig oder willkürlich sein, anzugeben, was wirklich als echtes Negativ gilt. Zum Beispiel hat ein Feueralarm jede Sekunde, jede Nanosekunde, jedes Mal, wenn eine Planck-Zeit verstrichen ist, ein echtes negatives Ereignis usw. Sogar ein Stück Stein hat diese echten negativen Branderkennungsereignisse die ganze Zeit.

Oder in einem Gesichtserkennungsfall geben Sie meistens Milliarden möglicher Bereiche im Bild "nicht korrekt zurück ", aber das ist nicht interessant. Die interessanten Fälle sind , wenn Sie tun eine vorgeschlagene Erkennung zurückgeben oder wenn Sie sollten es zurück.

Im Gegensatz dazu kümmert sich die Klassifizierungsgenauigkeit gleichermaßen um echte Positive und echte Negative und ist besser geeignet, wenn die Gesamtzahl der Stichproben (Klassifizierungsereignisse) genau definiert und eher gering ist.

Warum ist das F-Maß ein harmonisches Mittel und kein arithmetisches Mittel der Präzisions- und Rückrufmaße?

Antworten: