Warum wird das F-Maß normalerweise für (überwachte) Klassifizierungsaufgaben verwendet, während das G-Maß (oder der Fowlkes-Mallows-Index) im Allgemeinen für (unbeaufsichtigte) Clustering-Aufgaben verwendet wird?
Das F-Maß ist das harmonische Mittel der Präzision und des Rückrufs .
Das G-Maß (oder der Fowlkes-Mallows-Index) ist das geometrische Mittel der Präzision und des Rückrufs .
Unten sehen Sie eine Darstellung der verschiedenen Mittel.
F1 (harmonisch)
Geometric
Arithmetik
Der Grund, den ich frage, ist, dass ich entscheiden muss, welcher Durchschnitt in einer NLG-Aufgabe verwendet werden soll, in der ich BLEU und ROUGE gemessen habe (wobei BLEU Präzision und ROUGE entspricht, an die erinnert werden soll). Wie soll ich den Mittelwert dieser Werte berechnen?
quelle
Antworten:
Der Fı-Score wird der einfachen Klassifizierungsgenauigkeit vorgezogen, um dem Problem unausgeglichener Datensätze entgegenzuwirken. Wenn das, wonach Sie suchen, ohnehin nur selten vorkommt, kann ein naiver Klassifikator immer nein sagen und scheint sehr gut zu funktionieren! Eine Variante von Fı ist Fß, wo
Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]
Variieren Sie ß, um Präzision und Rückruf auszugleichen. Was das Warum F oder G betrifft, halte ich es für empirisch - Sie sagen nicht, ob Sie in Ihrer eigenen Anwendung klassifizieren oder gruppieren?
quelle
Wenn Präzision und Rückruf ähnlich sind, ist F1 eine gute Einzelmaßnahme, um verschiedene Modelle zu vergleichen.
Kurz und bündig :)
quelle