Klassifikatoren anhand von AUROC oder Genauigkeit vergleichen?

11

Ich habe ein Problem mit der binären Klassifizierung und experimentiere mit verschiedenen Klassifizierern: Ich möchte die Klassifizierer vergleichen. Welches ist ein besseres Maß für die AUC oder Genauigkeit? Und warum?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %
Sina
quelle

Antworten:

13

Ein korrekt klassifizierter Anteil ist eine falsche Bewertungsregel, dh er wird durch ein Scheinmodell optimiert. Ich würde die quadratische richtige Bewertungsregel verwenden, die als Brier-Score bekannt ist, oder die Konkordanzwahrscheinlichkeit (Fläche unter der ROC-Kurve im binären Fall). Zufällige Gesamtstruktur funktioniert in Ihrem Fall besser als SVM.Y

Frank Harrell
quelle
Wenn für das Subjekt in Ihrer Stichprobe o i{ 0 , 1 } das beobachtete binäre Ergebnis ist und die vorhergesagte Wahrscheinlichkeit einer '1' ist, dann ist der Brier-Score (wenn ich mich erinnere) . Da das OP ein Problem mit der binären Klassifizierung hat, sind die bekannt, aber wie berechnet man für SVM? ioi{0,1}B=1f^iOi f iB=1ni=1n(f^ioi)2oif^i
@fcop Es gibt eine Möglichkeit, die binäre Klassifizierungsvorhersage einer SVM in eine Wahrscheinlichkeit umzuwandeln, die Platt Scaling ( en.wikipedia.org/wiki/Platt_scaling ) genannt wird. Im Wesentlichen anstatt die SVM Klassifizierung Berechnung ( oder ) als , wobei die Lösung der quadratischen Programmierung SVM konvex Problem, Platt-Skalierung nimmt eine logistische Transformation von : wobei und Parameter sind, die durch den Platt-Skalierungsalgorithmus bestimmt werden. y^i=+11y^i=sign(g(yi,xi))g(yi,xi)g(yi,xi)f^i=P(Y=1|xi)=11+exp(A×g(yi,xi)+B)AB
RobertF
8

Ich denke, Sie sollten auf jeden Fall mehr Metriken als nur AUC und Genauigkeit untersuchen.

Die Genauigkeit (zusammen mit Sensitivität und Spezifität) ist eine sehr einfache, aber voreingenommene Metrik, die Sie dazu zwingt, das absolute Vorhersageergebnis zu betrachten, und die nicht für die Behauptung von Klassenwahrscheinlichkeiten oder Rangfolgen offen ist. Es wird auch nicht die Grundgesamtheit berücksichtigt, die zu Fehlinterpretationen als Modell führt, das eine Genauigkeit von 95% für eine Grundgesamtheit mit einer Wahrscheinlichkeit von 95% für zufällige Korrekturen ergibt. Dies ist kein wirklich gutes Modell, selbst wenn die Genauigkeit hoch ist.

Die AUC ist eine gute Metrik zur Bestätigung der Modellgenauigkeit, die unabhängig von den Wahrscheinlichkeiten der Populationsklassen ist. Es wird Ihnen jedoch nichts darüber sagen, wie gut die Wahrscheinlichkeitsschätzungen tatsächlich sind. Sie könnten eine hohe AUC erzielen, haben aber immer noch sehr verzerrte Wahrscheinlichkeitsschätzungen. Diese Metrik ist diskriminierender als die Genauigkeit und bietet definitiv bessere Modelle, wenn sie in Kombination mit einer geeigneten Bewertungsregel verwendet wird, z. B. dem Brier-Score, wie in einem anderen Beitrag erwähnt.

Sie können hier einen formelleren Beweis erhalten, obwohl dieses Papier ziemlich theoretisch ist: AUC: eine statistisch konsistente und diskriminierendere Maßnahme als die Genauigkeit

Es gibt jedoch eine Reihe guter Metriken. Verlustfunktionen für die Schätzung und Klassifizierung der Wahrscheinlichkeit von Binärklassen: Struktur und Anwendungen sind ein gutes Papier, in dem die richtigen Bewertungsregeln wie der Brier-Score untersucht werden.

Ein weiteres interessantes Papier mit Metriken zur Bestätigung der Modellleistung ist die Bewertung: Von Präzision, Rückruf und F-Messung bis hin zu ROC, Informiertheit, Markiertheit und Korrelation, wobei andere gute Leistungsmetriken wie Informiertheit berücksichtigt werden.

Zusammenfassend würde ich empfehlen, die AUC / Gini- und Brier-Punktzahl zu betrachten, um die Modellleistung zu bestätigen. Abhängig vom Ziel Ihres Modells passen andere Metriken möglicherweise besser zu Ihrem Problem.

während
quelle
Der Link für die Bewertung: Von Präzision, Rückruf und F-Messung bis hin zu ROC, Informiertheit, Markiertheit und Korrelation ist tot
vonjd
ioi{0,1}f^iB=1ni=1n(f^ioi)2oif^i
Kein brierscore eignet sich nicht für Methoden, die nur ein Ergebnis und keine Wahrscheinlichkeit liefern. Niether ist jedoch auc, da dies Ihnen sagt, wie gut Sie Ihre Vorhersagen einstufen. Mit nur Ergebnissen erhalten Sie nur einen Punkt im ROC-Raum, sodass der Bereich unter der Kurve das Dreieck ist. Aber es gibt dir immer noch eine Zahl und Brierscore, obwohl es sich mehr oder weniger in eine 0: 1-Niederlage verwandelt. Wenn Sie nur Ergebnisse haben, schlage ich vor, dass Sie sich Precision, Recall und Cohens Kappa ansehen, die Metriken sind, für die Sie entwickelt wurden, wenn Sie Ergebnisse haben.
während