Maximiert eine logistische Regressionsmaximierung zwangsläufig auch die AUC gegenüber linearen Modellen?

13

Ausgehend von einem Datensatz mit binären Ergebnissen und einer Prädiktormatrix schätzt das logistische Standardregressionsmodell die Koeffizienten , die die Binomialwahrscheinlichkeit maximieren. Wenn vollen Rang hat, ist eindeutig. Wenn keine perfekte Trennung vorliegt, ist sie endlich.y{0,1}nXRn×pβMLEXβMLE

Maximiert dieses Maximum-Likelihood-Modell auch die ROC-AUC (aka Statistik) oder gibt es eine Koeffizientenschätzung die eine höhere ROC-AUC ergibt ? Wenn es stimmt, dass die MLE die ROC-AUC nicht unbedingt maximiert, lautet eine andere Sichtweise auf diese Frage: "Gibt es eine Alternative zur Wahrscheinlichkeitsmaximierung, mit der die ROC-AUC einer logistischen Regression immer maximiert wird?"cβAUCβMLE

Ich gehe davon aus, dass die Modelle ansonsten identisch sind: Wir fügen keine Prädiktoren in hinzu oder entfernen sie nicht oder ändern auf andere Weise die Modellspezifikation. Außerdem gehe ich davon aus, dass die Modelle zur Wahrscheinlichkeitsmaximierung und zur AUC-Maximierung dieselbe Verknüpfungsfunktion verwenden.X

Sycorax sagt Reinstate Monica
quelle
2
Sicherlich wenn zB eine Link-Funktion eine bessere Übereinstimmung als ein Logit erzeugt? Davon abgesehen eine gute Frage, ob der Datenerzeugungsprozess als logit angenommen werden kann. βAUCβMLE
Nutle
Gute Frage, aber bedenken Sie dies. ROC und AUC werden verwendet, um zwei verschiedene Modelle zu vergleichen. Wenn also eine Lösung für die MLE-Schätzung eines Modells eindeutig ist, bedeutet dies, dass Sie nur dann eine andere AUC erhalten können, wenn Sie die Spezifikation des aktuellen Modells ändern und eine neue abweichende Schätzung vornehmen Modell über MLE. An dieser Stelle wäre eine andere Frage: Gibt es eine andere "bessere" Schätzmethode (Maximierungsalgorithmus ecc) als die einfache MLE, die auf dasselbe Modell anwendbar ist, so dass ich zu unterschiedlichen Schätzungen der Koeffizienten komme, die zu neuen "besseren" Betas führen mit höherer AUC?
Fr1
@Nutle genau, das wäre eine andere Spezifikation
Fr1
@ Fr1 Ja, das bedeutet einzigartig. Was ich in meiner Frage impliziere, ist so etwas wie "Was ist, wenn es eine Alternative zur MLE gibt, die eine höhere AUC erzielt?" Wenn es wahr ist, dass es ein anderes lineares Modell gibt (ein anderes als das MLE-Modell), das eine höhere AUC erzielt, dann wäre das interessant zu wissen.
Sycorax sagt Reinstate Monica
1
@Sycorax was sonst tun wir annehmen? :) Annahmen sind wichtig, denn wenn wir wissen , die wahre DGP mit Link und Variablen verwendet, die MLE gleichmäßig leistungsfähigste unvoreingenommene Statistik ist.
Nutle

Antworten:

11

Es ist nicht der Fall, dass βMLE=βAUC .

Um dies zu veranschaulichen, betrachten Sie, dass AUC als geschrieben werden kann

P(y^1>y^0|y1=1,y0=0)

Mit anderen Worten, die Reihenfolge der Vorhersagen ist das einzige, was die AUC beeinflusst . Dies ist bei der Wahrscheinlichkeitsfunktion nicht der Fall. Nehmen wir als mentale Übung an, wir hätten nur einen Prädiktor und in unserem Datensatz sehen wir keine perfekte Trennung (dh βMLE ist endlich). Wenn wir nun einfach den Wert des größten Prädiktors nehmen und ihn um einen kleinen Betrag erhöhen, ändern wir die Wahrscheinlichkeit dieser Lösung, aber nicht die AUC, da die Reihenfolge gleich bleiben sollte. Wenn also die alte MLE die AUC maximiert, wird sie nach dem Ändern des Prädiktors immer noch die AUC maximieren, aber die Wahrscheinlichkeit wird nicht länger maximiert.

Es ist also zumindest nicht der Fall, dass βAUC nicht eindeutig ist; Jedes β , das die Reihenfolge der Schätzungen beibehält, erzielt exakt die gleiche AUC. Da die AUC für verschiedene Aspekte der Daten empfindlich ist, würde ich annehmen, dass wir in der Lage sein sollten, einen Fall zu finden, in dem βMLEβAUC nicht maximiert . In der Tat würde ich eine Vermutung wagen, dass dies mit hoher Wahrscheinlichkeit passiert.

BEARBEITEN (Kommentar in Antwort verschieben)

Der nächste Schritt besteht darin zu beweisen, dass der MLE die AUC nicht unbedingt maximiert (was noch nicht bewiesen ist). Man kann dies tun, indem man so etwas wie die Prädiktoren 1, 2, 3, 4, 5, 6, x (mit x>6 ) mit den Ergebnissen 0, 0, 0, 1, 1, 1, 0 nimmt. Jeder positive Wert von β wird maximieren Sie die AUC (unabhängig vom Wert von x ), aber wir können ein x wählen, das groß genug ist, dass βMLE<0 .

Cliff AB
quelle
1
(+1) Ah! Natürlich - da es um die Reihenfolge geht, können wir den Achsenabschnitt beliebig ändern, was natürlich den Wahrscheinlichkeitswert ändern muss, aber die Reihenfolge muss gleich sein, da sich keiner der Merkmalskoeffizienten geändert hat, sodass die AUC fest bleibt.
Sycorax sagt Reinstate Monica
+1. Funktioniert das Bearbeitungsbeispiel jedoch mit ? Wenn wir x groß genug nehmen müssen, damit dies mit n funktioniert, konvergiert dann die Wahrscheinlichkeit, dass solche Werte existieren, für ein bestimmtes festes Logit schnell gegen 0? nxn
Nutle
nnn
xn