Wie interpretiere ich eine ROC-Kurve?

13

Ich habe die logistische Regression auf meine SAS-Daten angewendet. Hier sind die ROC-Kurve und die Klassifizierungstabelle.

Bildbeschreibung hier eingeben

Ich bin mit den Zahlen in der Klassifikationstabelle einverstanden, weiß aber nicht genau, wie die ROC-Kurve und die Fläche darunter aussehen. Jede Erklärung wäre sehr dankbar.

Günal
quelle

Antworten:

20

Wenn Sie eine logistische Regression durchführen, erhalten Sie zwei Klassen, die mit und 0 codiert sind . Nun berechnen Sie Wahrscheinlichkeiten, die bei einigen erklärenden Varialben einer Person zu der mit 1 codierten Klasse gehören . Wenn Sie jetzt einen Wahrscheinlichkeitsschwellenwert auswählen und alle Personen mit einer Wahrscheinlichkeit, die diesen Schwellenwert überschreitet, als Klasse 1 und darunter als 0 klassifizieren10110In den meisten Fällen werden Sie einige Fehler machen, da normalerweise zwei Gruppen nicht perfekt unterschieden werden können. Für diese Schwelle können Sie nun Ihre Fehler und die sogenannte Sensitivität und Spezifität berechnen. Wenn Sie dies für viele Schwellenwerte tun, können Sie eine ROC-Kurve erstellen, indem Sie die Empfindlichkeit für viele mögliche Schwellenwerte gegen die 1-Spezifität zeichnen. Der Bereich unter der Kurve bietet sich an, wenn Sie verschiedene Methoden vergleichen möchten, die versuchen, zwischen zwei Klassen zu unterscheiden, z. B. Diskriminanzanalyse oder ein Probit-Modell. Sie können die ROC-Kurve für alle diese Modelle erstellen, und das Modell mit der höchsten Fläche unter der Kurve wird als das beste Modell angesehen.

Wenn Sie ein tieferes Verständnis benötigen, können Sie auch die Antwort auf eine andere Frage zu ROC-Kurven lesen, indem Sie hier klicken .

zufälliger Typ
quelle
Wie unterscheidet sich die Fläche unter der ROC-Kurve von der korrekten Rate in der Klassifikationstabelle?
Günal
2
Die Tabelle zeigt nur die korrekten und nicht korrekten Werte für einen Schwellenwert. Die AUROC-Kurve ist jedoch ein Maß für die vollständige Klassifizierungsmethode und für die Richtigkeit und Nicht-Richtigkeit bei vielen verschiedenen Schwellenwerten.
random_guy
Schön das zu hören!
random_guy
6

Die AUC gibt lediglich an, wie oft eine zufällige Auslosung Ihrer vorhergesagten Antwortwahrscheinlichkeiten auf Ihre mit 1 gekennzeichneten Daten größer ist als eine zufällige Auslosung Ihrer vorhergesagten Antwortwahrscheinlichkeiten auf Ihre mit 0 gekennzeichneten Daten.

jlemaitre
quelle
6

Das logistische Regressionsmodell ist eine direkte Wahrscheinlichkeitsschätzmethode. Die Klassifizierung sollte bei ihrer Verwendung keine Rolle spielen. Jede Klassifizierung, die sich nicht auf die Bewertung der Versorgungsleistungen (Verlust- / Kostenfunktion) für einzelne Themen stützt, ist unangemessen, es sei denn, es handelt sich um ganz besondere Notfälle. Die ROC-Kurve ist hier nicht hilfreich; Es gibt auch keine Sensitivität oder Spezifität, die wie die allgemeine Klassifikationsgenauigkeit unangemessene Genauigkeitsbewertungsregeln sind, die durch ein Scheinmodell optimiert werden, das nicht durch die Maximum-Likelihood-Schätzung angepasst wird.

c15pYp0,05

Frank Harrell
quelle
@Frank Harrell: Könnten Sie die Berechnung bezüglich des Abschnitts sowie den Kommentar bezüglich der Fehlerspanne näher erläutern? Vielen Dank!
2.
@FrankHarrell Trifft Ihr Rat, dass wir mindestens 15p Beobachtungen benötigen, zu, wenn wir am Ende eine Gratregression durchführen, um das Modell zu kalibrieren? Mein Verständnis ist, dass wir p dann durch die effektive Dimensionalität ersetzen.
Lepidopterist
Richtig, und ich würde sagen, dass Sie eine Strafe wie eine quadratische Strafe verwenden, um die Parameter abzuschätzen, was zu einer besseren Kalibrierung führt
Frank Harrell,
4

Ich bin nicht der Autor dieses Blogs und fand diesen Blog äußerst hilfreich: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

Wenn Sie diese Erklärung auf Ihre Daten anwenden, hat das durchschnittliche positive Beispiel ungefähr 10% der negativen Beispiele, die höher bewertet wurden als es.

Aerin
quelle