Ich habe kürzlich einen Kaggle-Wettbewerb abgeschlossen, bei dem der ROC AUC-Score gemäß den Wettbewerbsanforderungen verwendet wurde. Vor diesem Projekt habe ich normalerweise den Wert f1 als Metrik zur Messung der Modellleistung verwendet. In Zukunft frage ich mich, wie ich zwischen diesen beiden Metriken wählen soll. Wann welche verwenden und welche Vor- und Nachteile haben sie?
Übrigens, ich habe den Artikel hier gelesen. Was sind die Unterschiede zwischen AUC und F1-Score? , aber es sagt mir nicht, wann ich welche verwenden soll.
Vielen Dank im Voraus für jede Hilfe!
quelle
Berechnungsformel:
ROC / AUC sind die gleichen Kriterien und die PR-Kurve (Precision-Recall) (F1-Score, Precision, Recall) ist auch das gleiche Kriterium.
Bei realen Daten besteht in der Regel ein Ungleichgewicht zwischen positiven und negativen Stichproben. Dieses Ungleichgewicht hat große Auswirkungen auf PR, jedoch nicht auf ROC / AUC.
In der realen Welt wird die PR-Kurve daher häufiger verwendet, da positive und negative Abtastwerte sehr ungleichmäßig sind. Die ROC / AUC-Kurve spiegelt nicht die Leistung des Klassifikators wider, die PR-Kurve jedoch.
Wenn Sie nur das Experiment in Forschungsarbeiten durchführen, können Sie die ROC verwenden, die experimentellen Ergebnisse werden schöner. Auf der anderen Seite wird die PR-Kurve im realen Problem verwendet und hat eine bessere Interpretierbarkeit.
quelle
Die obigen Antworten sind beide gut.
Ich möchte jedoch darauf hinweisen, dass AUC (Area under ROC) problematisch ist, insbesondere, wenn die Daten unausgewogen sind (so genannte stark verzerrte Werte: ist groß). Diese Art von Situationen ist bei der Erkennung von Handlungen, Betrugsfällen und Konkursvorhersagen sehr verbreitet. Das heißt, die positiven Beispiele, die Sie interessieren, weisen relativ niedrige Auftrittsraten auf.Sk e w = n e ga t i v ee x a m p l e sp o s i t i v ee x a m p l e s
Bei unausgeglichenen Daten gibt Ihnen die AUC immer noch einen Scheinwert um 0,8. Es ist jedoch eher aufgrund der großen FP als aufgrund der großen TP (True Positive) hoch.
Wie im folgenden Beispiel,
Wenn Sie also AUC verwenden, um die Leistung des Klassifikators zu messen, besteht das Problem darin, dass die Erhöhung der AUC keinen besseren Klassifikator widerspiegelt. Es ist nur der Nebeneffekt von zu vielen negativen Beispielen. Sie können einfach in Ihrem Datensatz versuchen.
In dem Artikel mit Empfehlungen zu unausgeglichenen Daten für die Verwendung von Leistungsmetriken wurde festgestellt, dass "während der ROC nicht durch Versatz beeinflusst wurde, die Präzisionsrückrufkurven darauf hindeuten, dass der ROC in einigen Fällen eine schlechte Leistung maskieren kann". Die Suche nach einer guten Leistungsmetrik ist immer noch eine offene Frage. Ein allgemeiner F1-Score kann helfen,
Dabei ist die relative Bedeutung der Genauigkeit im Vergleich zum Rückruf.β
Dann sind meine Vorschläge für unausgewogene Daten ähnlich wie in diesem Beitrag . Sie können auch die Dekiliertabelle ausprobieren, die durch Durchsuchen von "Zwei-mal-Zwei-Klassifizierungs- und Dekiliertabellen" erstellt werden kann. In der Zwischenzeit beschäftige ich mich auch mit diesem Problem und werde bessere Maßstäbe setzen.
quelle
Um sehr einfache Worte zu formulieren, wenn Sie ein Datenungleichgewicht haben, dh der Unterschied zwischen der Anzahl der Beispiele für positive und negative Klassen ist groß, sollten Sie immer den F1-Score verwenden. Ansonsten können Sie ROC / AUC-Kurven verwenden.
quelle
Bei einigen Klassifizierungsproblemen mit mehreren Klassen ist das Analysieren und Visualisieren von ROC / AUC nicht einfach. Sie können sich mit dieser Frage befassen : Wie werden ROC-Kurven in einer Mehrklassenklassifizierung dargestellt? . In einer solchen Situation könnte die Verwendung der F1-Punktzahl eine bessere Metrik sein.
Der F1-Score ist eine häufige Wahl für Probleme beim Abrufen von Informationen und in der Industrie beliebt. Hier ist ein gut erklärtes Beispiel, das Erstellen von ML-Modellen ist schwierig. Ihre Bereitstellung in realen Geschäftsumgebungen ist schwieriger .
quelle
Wenn das Ziel der Klassifizierung die Bewertung nach der Wahrscheinlichkeit ist, ist es besser, AUC zu verwenden, die über alle möglichen Schwellenwerte gemittelt wird. Wenn das Ziel der Klassifizierung jedoch nur die Klassifizierung zwischen zwei möglichen Klassen erfordert und nicht die Wahrscheinlichkeit voraussagt, mit der jede Klasse vom Modell vorhergesagt wird, ist es angemessener, sich auf die F-Bewertung unter Verwendung eines bestimmten Schwellenwerts zu verlassen.
quelle