Ich würde gerne wissen, wie man einen Unterschied von f-Messwerten interpretiert. Ich weiß, dass das f-Maß ein ausgewogenes Mittel zwischen Präzision und Erinnerung ist, aber ich frage nach der praktischen Bedeutung eines Unterschieds bei den f-Maßen.
Wenn beispielsweise ein Klassifikator C1 eine Genauigkeit von 0,4 und ein anderer Klassifikator C2 eine Genauigkeit von 0,8 hat, können wir sagen, dass C2 das Doppel der Testbeispiele im Vergleich zu C1 korrekt klassifiziert hat. Wenn jedoch ein Klassifikator C1 für eine bestimmte Klasse ein F-Maß von 0,4 und ein anderer Klassifikator C2 ein F-Maß von 0,8 hat, was können wir über den Leistungsunterschied der beiden Klassifikatoren aussagen? Können wir sagen, dass C2 X weitere Instanzen korrekt als C1 klassifiziert hat?
Antworten:
Ich kann mir keine intuitive Bedeutung des F-Maßes vorstellen, weil es nur eine kombinierte Metrik ist. Was intuitiver als F-Mesure ist, ist natürlich Präzision und Erinnerung.
Mit zwei Werten können wir jedoch häufig nicht feststellen, ob ein Algorithmus einem anderen überlegen ist. Wenn zum Beispiel ein Algorithmus eine höhere Genauigkeit, aber einen geringeren Wiederaufruf aufweist als der andere, wie können Sie feststellen, welcher Algorithmus besser ist?
Wenn Sie ein bestimmtes Ziel im Kopf haben wie „Präzision ist der König. Rückruf ist mir egal ', dann gibt es kein Problem. Höhere Präzision ist besser. Wenn Sie jedoch kein so starkes Ziel haben, möchten Sie eine kombinierte Metrik. Das ist F-Maß. Indem Sie es verwenden, vergleichen Sie einige der Präzision und einige der Erinnerung.
Die ROC-Kurve wird häufig unter Angabe des F-Maßes gezeichnet. Dieser Artikel ist möglicherweise interessant, da er Erläuterungen zu verschiedenen Kennzahlen einschließlich der ROC-Kurven enthält: http://binf.gmu.edu/mmasso/ROC101.pdf
quelle
Die Wichtigkeit des F1-Scores ist je nach Szenario unterschiedlich. Nehmen wir an, die Zielvariable ist eine binäre Bezeichnung.
quelle
F-Measure hat eine intuitive Bedeutung. Hier erfahren Sie, wie genau Ihr Klassifikator ist (wie viele Instanzen er richtig klassifiziert) und wie robust er ist (es wird keine signifikante Anzahl von Instanzen übersehen).
Mit hoher Präzision und geringem Wiederaufruf ist Ihr Klassifikator äußerst genau, es fehlen jedoch eine erhebliche Anzahl von Instanzen, die schwer zu klassifizieren sind. Das ist nicht sehr nützlich.
Schauen Sie sich dieses Histogramm an. Ignorieren Sie den ursprünglichen Zweck.
Nach rechts erhalten Sie eine hohe Präzision, aber einen geringen Rückruf. Wenn ich nur Instanzen mit einer Punktzahl über 0,9 auswähle, sind meine klassifizierten Instanzen äußerst präzise, ich habe jedoch eine erhebliche Anzahl von Instanzen verpasst. Experimente zeigen, dass der Sweet Spot hier bei 0,76 liegt, wobei das F-Maß 0,87 beträgt.
quelle
Das F-Maß ist das harmonische Mittel Ihrer Präzision und Erinnerung. In den meisten Situationen besteht ein Kompromiss zwischen Präzision und Rückruf. Wenn Sie Ihren Klassifikator optimieren, um den einen zu erhöhen und den anderen zu benachteiligen, nimmt der harmonische Mittelwert schnell ab. Am besten ist es jedoch, wenn Präzision und Abruf gleich sind.
Bei F-Maßen von 0,4 und 0,8 für Ihre Klassifikatoren können Sie davon ausgehen, dass diese die Maximalwerte beim Abwägen der Genauigkeit gegen Rückruf erreichen.
Zur Veranschaulichung schauen Sie sich diese Abbildung aus Wikipedia an :
Das F-Maß ist H , A und B sind Erinnerung und Präzision. Sie können eine erhöhen, die andere jedoch verringern.
quelle
Die Formel für das F-Maß (F1, mit Beta = 1) ist dieselbe wie die Formel, die den Ersatzwiderstand ergibt, der sich aus zwei Widerständen zusammensetzt, die in der Physik parallel geschaltet sind (ohne den Faktor 2).
Dies könnte Ihnen eine mögliche Interpretation geben und Sie können sowohl über elektronische als auch über thermische Widerstände nachdenken. Diese Analogie würde das F-Maß als den äquivalenten Widerstand definieren, der durch die parallel geschaltete Empfindlichkeit und Präzision gebildet wird.
Für das F-Maß ist das Maximum 1 möglich, und Sie verlieren den Widerstand, sobald einer von den beiden ebenfalls den Widerstand verliert (dh Sie erhalten einen Wert unter 1). Wenn Sie diese Größe und ihre Dynamik besser verstehen wollen, denken Sie an das physikalische Phänomen. Beispielsweise scheint das F-Maß <= max (Empfindlichkeit, Präzision) zu sein.
quelle
quelle
quelle
Die naheliegendste intuitive Bedeutung des f1-Scores wird als Mittelwert des Abrufs und der Genauigkeit wahrgenommen. Lassen Sie es uns für Sie klären:
In einer Klassifizierungsaufgabe planen Sie möglicherweise, einen Klassifizierer mit hoher Genauigkeit UND Rückruffunktion zu erstellen . Zum Beispiel ein Klassifikator, der angibt, ob eine Person ehrlich ist oder nicht.
Um genau zu sein, können Sie in der Regel genau sagen, wie viele ehrliche Personen in einer bestimmten Gruppe anwesend sind. In diesem Fall gehen Sie davon aus, dass Sie eine Lügnerperson als ehrlich einstufen können, aber nicht oft. Mit anderen Worten, hier versuchen Sie, den Lügner als ganze Gruppe als ehrlich zu bezeichnen.
Um sich zu erinnern, werden Sie jedoch wirklich besorgt sein, wenn Sie eine Lügnerperson für ehrlich halten. Für Sie wird dies ein großer Verlust und ein großer Fehler sein, und Sie möchten es nicht noch einmal tun. Es ist auch in Ordnung, wenn Sie jemanden als ehrlich als Lügner einstufen, aber Ihr Model sollte niemals (oder meistens nicht) einen Lügner als ehrlich bezeichnen. Mit anderen Worten, Sie konzentrieren sich hier auf eine bestimmte Klasse und versuchen, keinen Fehler zu machen.
Nehmen wir nun den Fall, in dem Ihr Modell (1) ehrlich von einem Lügner (Präzision) genau identifizieren soll (2) jede Person aus beiden Klassen identifizieren soll (Rückruf). Das bedeutet, dass Sie das Modell auswählen, das für beide Metriken eine gute Leistung erbringt.
Bei der Modellauswahlentscheidung wird dann versucht, jedes Modell auf der Grundlage des Mittelwerts der beiden Metriken zu bewerten. F-Score ist der beste, der dies beschreiben kann. Schauen wir uns die Formel an:
Rückruf: p = tp / (tp + fp)
Rückruf: r = tp / (tp + fn)
F-Punktzahl: fscore = 2 / (1 / r + 1 / p)
Wie Sie sehen, ist der F-Score umso höher, je höher die Abruf- UND Genauigkeit ist.
quelle
Da wir wissen, dass der F1-Score ein harmonisches Mittel für Präzision und Erinnerung ist, werden wir uns im Folgenden kurz mit ihnen befassen.
Ich würde sagen, Recall ist mehr falsches Negativ .ie . Ein höherer Recall bedeutet, dass es weniger FALSE NEGATIVES gibt .
So viel weniger FN oder Null FN bedeuten, Ihre Modellvorhersage ist wirklich gut.
Höhere Präzision bedeutet weniger FALSCHE POSITIVEPrecision=tptp+fp
Auch hier bedeutet "Weniger" oder "Falsch-Positiv-Null", dass die Modellvorhersage wirklich gut ist.
quelle