Was sind mögliche Klassifizierungsmetriken für ein unausgeglichenes Problem? Aufgrund der Schiefe der Verteilung ist der Genauigkeitswert nicht so aussagekräftig. Wenn ich zum Beispiel alle Klassen bis Klasse 1 vorhersage, könnte ich immer noch eine Genauigkeit von 70% erreichen.
8
Antworten:
Ich entschuldige mich, habe gerade gesehen, wie alt die Frage war - warum stand sie ganz oben auf der Liste?
Antwort (was mit begrenzten Informationen so gut ist wie es nur geht):
Von welcher Art sind die Daten?
Sie sollten wahrscheinlich niemals die Erkennungsgenauigkeit verwenden oder schon gar nicht, wenn Ihr Klassifikator eine Punktzahl oder Wahrscheinlichkeit ausgibt. Wie klassifizierst du? Die zugrunde liegende Verlustfunktion Ihres Klassifizierungsalgorithmus ist normalerweise ein gutes Maß für die Bewertungsleistung.
Ich würde mich nicht zu allen analytischen Ansätzen wie der Präzisionsrückrufkurve (n) neigen. Es wird Sie nicht sehr weit bringen - Sie müssten jede Klasse gegen alle anderen testen und diese Ergebnisse dann irgendwie kombinieren. Harmonischer Mittelwert, a-priori-Wahrscheinlichkeit für die zu testende Klasse, ...? Es ist unklar, was diese Maßnahmen Ihnen tatsächlich sagen werden.
Wenn Sie eine probabilistische Ausgabe haben, ist die negative Log-Wahrscheinlichkeit ein guter Anfang.
Wenn Sie bereits eine Genauigkeit von 70% für Klasse 1 haben, was bedeutet, dass 70% Ihres Datensatzes Klasse 1 sind, befinden Sie sich möglicherweise in der Situation, dass Ihr Klassifizierer einige kleinere Klassen aufgibt und eher versucht, einen möglichen Regularisierungsterm zu erfüllen. Dies hängt jedoch wirklich von Ihrem Klassifizierungsschema ab. Wenn Sie eine klarere Antwort wünschen, müssen Sie uns die ganze Geschichte erzählen. ;)
quelle
Probieren Sie den F1-Score , der Präzision und Erinnerung in Einklang bringt.
Die Präzision kann berechnet werden durch die Anzahl der echten Positiven geteilt durch die Gesamtzahl der Positiven und den Rückruf durch die Anzahl der echten Positiven geteilt durch die Gesamtzahl der Elemente, die tatsächlich zur positiven Klasse gehören. Diese werden mit einem harmonischen Mittelwert gewichtet.
quelle