Ausgehend von einem Datensatz mit binären Ergebnissen und einer Prädiktormatrix schätzt das logistische Standardregressionsmodell die Koeffizienten , die die Binomialwahrscheinlichkeit maximieren. Wenn vollen Rang hat, ist eindeutig. Wenn keine perfekte Trennung vorliegt, ist sie endlich.
Maximiert dieses Maximum-Likelihood-Modell auch die ROC-AUC (aka Statistik) oder gibt es eine Koeffizientenschätzung die eine höhere ROC-AUC ergibt ? Wenn es stimmt, dass die MLE die ROC-AUC nicht unbedingt maximiert, lautet eine andere Sichtweise auf diese Frage: "Gibt es eine Alternative zur Wahrscheinlichkeitsmaximierung, mit der die ROC-AUC einer logistischen Regression immer maximiert wird?"
Ich gehe davon aus, dass die Modelle ansonsten identisch sind: Wir fügen keine Prädiktoren in hinzu oder entfernen sie nicht oder ändern auf andere Weise die Modellspezifikation. Außerdem gehe ich davon aus, dass die Modelle zur Wahrscheinlichkeitsmaximierung und zur AUC-Maximierung dieselbe Verknüpfungsfunktion verwenden.
quelle
Antworten:
Es ist nicht der Fall, dassβMLE=βAUC .
Um dies zu veranschaulichen, betrachten Sie, dass AUC als geschrieben werden kann
Mit anderen Worten, die Reihenfolge der Vorhersagen ist das einzige, was die AUC beeinflusst . Dies ist bei der Wahrscheinlichkeitsfunktion nicht der Fall. Nehmen wir als mentale Übung an, wir hätten nur einen Prädiktor und in unserem Datensatz sehen wir keine perfekte Trennung (dhβMLE ist endlich). Wenn wir nun einfach den Wert des größten Prädiktors nehmen und ihn um einen kleinen Betrag erhöhen, ändern wir die Wahrscheinlichkeit dieser Lösung, aber nicht die AUC, da die Reihenfolge gleich bleiben sollte. Wenn also die alte MLE die AUC maximiert, wird sie nach dem Ändern des Prädiktors immer noch die AUC maximieren, aber die Wahrscheinlichkeit wird nicht länger maximiert.
Es ist also zumindest nicht der Fall, dassβAUC nicht eindeutig ist; Jedes β , das die Reihenfolge der Schätzungen beibehält, erzielt exakt die gleiche AUC. Da die AUC für verschiedene Aspekte der Daten empfindlich ist, würde ich annehmen, dass wir in der Lage sein sollten, einen Fall zu finden, in dem βMLE βAUC nicht maximiert . In der Tat würde ich eine Vermutung wagen, dass dies mit hoher Wahrscheinlichkeit passiert.
BEARBEITEN (Kommentar in Antwort verschieben)
Der nächste Schritt besteht darin zu beweisen, dass der MLE die AUC nicht unbedingt maximiert (was noch nicht bewiesen ist). Man kann dies tun, indem man so etwas wie die Prädiktoren 1, 2, 3, 4, 5, 6,x (mit x>6 ) mit den Ergebnissen 0, 0, 0, 1, 1, 1, 0 nimmt. Jeder positive Wert von β wird maximieren Sie die AUC (unabhängig vom Wert von x ), aber wir können ein x wählen, das groß genug ist, dass βMLE<0 .
quelle