AIC und C-Statistik versuchen unterschiedliche Fragen zu beantworten. (In den letzten Jahren wurden auch einige Probleme mit der C-Statistik angesprochen, auf die ich jedoch zur Seite treten werde.)
Grob gesagt:
- AIC sagt Ihnen, wie gut Ihr Modell für bestimmte Fehlklassifizierungskosten geeignet ist.
- AUC sagt Ihnen, wie gut Ihr Modell im Durchschnitt über alle Fehlklassifizierungskosten hinweg funktionieren würde.
Wenn Sie den AIC berechnen, behandeln Sie Ihre Logistik mit einer Vorhersage von beispielsweise 0,9 als eine Vorhersage von 1 (dh wahrscheinlicher 1 als 0), dies muss jedoch nicht der Fall sein. Sie könnten Ihre logistische Punktzahl nehmen und sagen: "Alles über 0,95 ist 1, alles unter 0". Wieso würdest du das machen? Nun, dies würde sicherstellen, dass Sie nur dann eine Vorhersage treffen, wenn Sie wirklich sehr, sehr sicher sind. Ihre falsch-positive Rate wird wirklich sehr niedrig sein, aber Ihre falsch-negative Rate wird in die Höhe schnellen. In manchen Situationen ist dies keine schlechte Sache - wenn Sie jemanden des Betrugs beschuldigen, möchten Sie wahrscheinlich zuerst wirklich wirklich sicher sein. Auch wenn es sehr teuer ist, die positiven Ergebnisse weiterzuverfolgen, möchten Sie nicht zu viele davon.
Aus diesem Grund handelt es sich um Kosten. Es gibt Kosten, wenn Sie eine 1 als 0 klassifizieren, und Kosten, wenn Sie eine 0 als 1 klassifizieren. In der Regel bezieht sich der AIC für die logistische Regression (vorausgesetzt, Sie haben ein Standard-Setup verwendet) auf den Sonderfall, wenn beide Fehlklassifizierungen gleich sind teuer. Das heißt, die logistische Regression gibt Ihnen die beste Gesamtzahl an korrekten Vorhersagen, ohne dass Sie positive oder negative bevorzugen.
Die ROC-Kurve wird verwendet, weil hiermit das wahre Positiv gegen das falsche Positiv aufgetragen wird, um zu zeigen, wie sich der Klassifikator verhalten würde, wenn Sie ihn unter verschiedenen Kostenanforderungen verwenden würden. Die c-Statistik entsteht, weil jede ROC-Kurve, die genau übereinander liegt, eindeutig ein dominierender Klassifikator ist. Es ist daher intuitiv, die Fläche unter der Kurve als Maß dafür zu messen, wie gut der Klassifikator insgesamt ist.
Wenn Sie also Ihre Kosten beim Anpassen des Modells kennen, verwenden Sie AIC (oder ähnliches). Wenn Sie nur einen Score erstellen, aber den diagnostischen Schwellenwert nicht angeben, sind AUC-Ansätze erforderlich (mit dem folgenden Vorbehalt zu AUC selbst).
Also, was ist los mit C-Statistik / AUC / Gini?
Über viele Jahre hinweg war AUC der Standardansatz und wird immer noch häufig verwendet, es gibt jedoch eine Reihe von Problemen. Besonders reizvoll war, dass es sich um einen Wilcox-Test in den Einstufungen handelt. Das heißt, es wird die Wahrscheinlichkeit gemessen, dass die Punktzahl eines zufällig ausgewählten Mitglieds einer Klasse höher ist als die eines zufällig ausgewählten Mitglieds der anderen Klasse. Das Problem ist, dass dies fast nie eine nützliche Metrik ist.
Die kritischsten Probleme mit AUC wurden vor einigen Jahren von David Hand veröffentlicht. (Siehe Referenzen weiter unten) Der Kern des Problems besteht darin, dass die AUC zwar über alle Kosten gemittelt wird, weil die x-Achse der ROC-Kurve False Positive Rate ist, das Gewicht, das sie den verschiedenen Kostenregimen zuweist, jedoch zwischen den Klassifizierern variiert. Wenn Sie also die AUC für zwei verschiedene logistische Regressionen berechnen, wird nicht in beiden Fällen "dasselbe" gemessen. Ein Vergleich von AUC-basierten Modellen ist daher wenig sinnvoll.
Hand schlug eine alternative Berechnung unter Verwendung einer festen Kostengewichtung vor und nannte dies das H-Maß. Es gibt ein Paket in R, das aufgerufen hmeasure
wird, um diese Berechnung durchzuführen, und ich glaube, AUC zum Vergleich.
Einige Hinweise auf die Probleme mit AUC:
Wann ist der Bereich unter der Betriebskennlinie des Empfängers ein geeignetes Maß für die Leistung des Klassifikators? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Ich fand dies eine besonders zugängliche und nützliche Erklärung)
Das zitierte Hand Paper hat keine Grundlage für die praktische Anwendung in der klinischen Diagnostik. Er hat eine theoretische Kurve mit einer AUC von 0,5, die stattdessen ein perfekter Klassifikator ist. Er verwendet einen einzigen Satz von Daten aus der realen Welt, bei denen die Modelle aus der Hand geworfen würden, da sie so schlecht sind und die Konfidenzintervalle um die Messungen (Daten nicht bereitgestellt, aber abgeleitet) wahrscheinlich zufällig sind . In Anbetracht des Mangels an realen (oder sogar plausiblen) Simulationsdaten handelt es sich um ein leeres Papier. Ich persönlich war an der Analyse von Tausenden von Klassifikatoren unter Tausenden von Patienten (mit ausreichenden Freiheitsgraden) beteiligt. In diesem Zusammenhang sind seine Argumente unsinnig.
Er ist auch anfällig für Superlative (in keinem Zusammenhang ein gutes Zeichen) und macht nicht unterstützte Verallgemeinerungen, z. B. können die Kosten nicht bekannt sein. In der Medizin werden Kosten akzeptiert, beispielsweise ein positiver Vorhersagewert von 10% für Screening-Tests und 100.000 USD pro qualitätsbereinigtem Lebensjahr für therapeutische Interventionen. Es fällt mir schwer zu glauben, dass die Kosten beim Kredit-Scoring nicht gut verstanden werden. Wenn er (unklar) sagt, dass verschiedene einzelne falsche Positive und falsche Negative unterschiedliche Kosten verursachen, obwohl dies ein sehr interessantes Thema ist, ähnelt es nicht binäre Klassifikatoren.
Wenn es ihm darum geht, dass die ROC-Form eine Rolle spielt, dann ist dies für erfahrene Benutzer offensichtlich, und unerfahrene Benutzer haben noch viel mehr zu befürchten, z. B. das Einbeziehen der Prävalenz in positive und negative Vorhersagewerte.
Schließlich verstehe ich nicht, wie verschiedene Klassifikatoren auf der Grundlage der verschiedenen Grenzwerte, die durch die klinische (oder finanzielle) Verwendung der Modelle festgelegt werden, nicht beurteilt werden können. Offensichtlich würden für jedes Modell unterschiedliche Abschneidewerte gewählt. Die Modelle würden nicht nur auf AUC-Basis verglichen. Die Klassifikatoren spielen keine Rolle, aber die Form der Kurve.
quelle
Für mich ist das Fazit, dass die C-Statistik (AUC) zwar problematisch sein kann, wenn Modelle mit verschiedenen unabhängigen Variablen verglichen werden (analog zu dem, was Hand als "Klassifikatoren" bezeichnet), aber in anderen Anwendungen immer noch nützlich ist. Zum Beispiel Validierungsstudien, bei denen das gleiche Modell über verschiedene Studienpopulationen (Datensätze) hinweg verglichen wird. Wenn sich herausstellt, dass ein Modell oder ein Risikoindex / Score in einer Population, aber nicht in anderen, stark diskriminierend ist, kann dies bedeuten, dass es sich im Allgemeinen nicht um ein sehr gutes Instrument handelt, sondern in bestimmten Fällen.
quelle