Wenn wir das F-Maß unter Berücksichtigung von Präzision und Rückruf berechnen, nehmen wir das harmonische Mittel der beiden Maße anstelle eines einfachen arithmetischen Mittels.
Was ist der intuitive Grund für die Annahme des harmonischen Mittelwerts und nicht eines einfachen Durchschnitts?
machine-learning
classification
data-mining
Londoner Typ
quelle
quelle
Antworten:
Hier haben wir bereits einige ausführliche Antworten, aber ich dachte, weitere Informationen darüber wären hilfreich für einige Leute, die tiefer eintauchen möchten (insbesondere warum F messen).
Nach der Messtheorie sollte das zusammengesetzte Maß die folgenden 6 Definitionen erfüllen:
Wir können dann ableiten und die Funktion der Wirksamkeit erhalten:
Und normalerweise verwenden wir nicht die Effektivität, sondern den viel einfacheren F-Score, weil :
Nun haben wir die allgemeine Formel des F-Maßes:
Hier können wir durch die Einstellung von Beta mehr Wert auf Rückruf oder Präzision legen, da Beta wie folgt definiert ist:
Wenn wir Gewichtungsrückruf wichtiger als Präzision sind (alle relevanten sind ausgewählt), können wir Beta auf 2 setzen und erhalten das F2-Maß. Und wenn wir die Umkehr- und Gewichtsgenauigkeit höher als beim Abrufen machen (so viele ausgewählte Elemente sind relevant wie möglich, zum Beispiel in einigen Grammatikfehlerkorrektur-Szenarien wie CoNLL ), setzen wir Beta einfach auf 0,5 und erhalten das F0.5-Maß. Und natürlich können wir Beta auf 1 setzen, um das am häufigsten verwendete F1-Maß (harmonisches Mittel der Präzision und des Rückrufs) zu erhalten.
Ich denke, bis zu einem gewissen Grad habe ich bereits geantwortet, warum wir das arithmetische Mittel nicht verwenden.
Verweise:
quelle
Um zu erklären, betrachten Sie zum Beispiel, was der Durchschnitt von 30 Meilen pro Stunde und 40 Meilen pro Stunde ist? Wenn Sie 1 Stunde mit jeder Geschwindigkeit fahren, ist die Durchschnittsgeschwindigkeit über die 2 Stunden in der Tat der arithmetische Durchschnitt, 35 Meilen pro Stunde.
Wenn Sie jedoch bei jeder Geschwindigkeit dieselbe Strecke fahren - beispielsweise 10 Meilen -, ist die Durchschnittsgeschwindigkeit über 20 Meilen das harmonische Mittel von 30 und 40, ungefähr 34,3 Meilen pro Stunde.
Der Grund dafür ist, dass für die Gültigkeit des Durchschnitts die Werte wirklich in denselben skalierten Einheiten angegeben werden müssen. Meilen pro Stunde müssen über die gleiche Anzahl von Stunden verglichen werden. Um über die gleiche Anzahl von Meilen zu vergleichen, müssen Sie stattdessen die durchschnittlichen Stunden pro Meile berechnen, was genau das ist, was der harmonische Mittelwert bewirkt.
Präzision und Rückruf haben beide echte Positive im Zähler und unterschiedliche Nenner. Um sie zu mitteln, ist es wirklich nur sinnvoll, ihre Kehrwerte zu mitteln, also das harmonische Mittel.
quelle
Weil es Extremwerte mehr bestraft.
Betrachten Sie eine triviale Methode (z. B. immer Klasse A zurückgeben). Es gibt unendlich viele Datenelemente der Klasse B und ein einzelnes Element der Klasse A:
Wenn man das arithmetische Mittel nimmt, hätte es 50% korrekt. Obwohl es das schlechteste Ergebnis ist! Mit dem harmonischen Mittelwert ist das F1-Maß 0.
Mit anderen Worten, um ein hohes F1 zu haben, müssen Sie sowohl eine hohe Präzision als auch einen hohen Rückruf haben.
quelle
Die obigen Antworten sind gut erklärt. Dies ist nur eine kurze Referenz, um die Natur des arithmetischen Mittelwerts und des harmonischen Mittelwerts mit Plots zu verstehen. Wie Sie dem Diagramm entnehmen können, betrachten Sie die X- und Y-Achse als Präzision und Rückruf und die Z-Achse als F1-Punktzahl. Aus der Darstellung des harmonischen Mittels sollten also sowohl die Präzision als auch der Rückruf gleichmäßig dazu beitragen, dass der F1-Wert im Gegensatz zum arithmetischen Mittelwert steigt.
Dies ist für das arithmetische Mittel.
Dies ist für das harmonische Mittel.
quelle
Das harmonische Mittel ist das Äquivalent des arithmetischen Mittels für Kehrwerte von Größen, die durch das arithmetische Mittel gemittelt werden sollen. Genauer gesagt, mit dem harmonischen Mittelwert transformieren Sie alle Ihre Zahlen in die "durchschnittliche" Form (indem Sie den Kehrwert nehmen), nehmen ihren arithmetischen Mittelwert und transformieren das Ergebnis dann zurück in die ursprüngliche Darstellung (indem Sie den Kehrwert erneut nehmen).
Präzision und Rückruf sind "natürlich" Kehrwerte, da ihr Zähler gleich und ihre Nenner unterschiedlich sind. Brüche sind im arithmetischen Mittel sinnvoller zu mitteln, wenn sie denselben Nenner haben.
Nehmen wir für mehr Intuition an, dass wir die Anzahl der echten positiven Elemente konstant halten. Indem Sie dann das harmonische Mittel der Präzision und des Rückrufs nehmen, nehmen Sie implizit das arithmetische Mittel der falsch positiven und der falsch negativen Ergebnisse. Dies bedeutet im Grunde, dass falsch positive und falsch negative Ergebnisse für Sie gleichermaßen wichtig sind, wenn die wahren positiven Werte gleich bleiben. Wenn ein Algorithmus N mehr falsch positive Elemente, aber N weniger falsch negative Elemente enthält (bei gleichen wahren positiven Elementen), bleibt das F-Maß gleich.
Mit anderen Worten, das F-Maß ist geeignet, wenn:
Punkt 1 kann wahr sein oder nicht, es gibt gewichtete Varianten des F-Maßes, die verwendet werden können, wenn diese Annahme nicht wahr ist. Punkt 2 ist ganz natürlich, da wir erwarten können, dass die Ergebnisse skaliert werden, wenn wir nur immer mehr Punkte klassifizieren. Die relativen Zahlen sollten gleich bleiben.
Punkt 3 ist sehr interessant. In vielen Anwendungen sind Negative die natürliche Standardeinstellung, und es kann sogar schwierig oder willkürlich sein, anzugeben, was wirklich als echtes Negativ gilt. Zum Beispiel hat ein Feueralarm jede Sekunde, jede Nanosekunde, jedes Mal, wenn eine Planck-Zeit verstrichen ist, ein echtes negatives Ereignis usw. Sogar ein Stück Stein hat diese echten negativen Branderkennungsereignisse die ganze Zeit.
Oder in einem Gesichtserkennungsfall geben Sie meistens Milliarden möglicher Bereiche im Bild "nicht korrekt zurück ", aber das ist nicht interessant. Die interessanten Fälle sind , wenn Sie tun eine vorgeschlagene Erkennung zurückgeben oder wenn Sie sollten es zurück.
Im Gegensatz dazu kümmert sich die Klassifizierungsgenauigkeit gleichermaßen um echte Positive und echte Negative und ist besser geeignet, wenn die Gesamtzahl der Stichproben (Klassifizierungsereignisse) genau definiert und eher gering ist.
quelle