Warum ist die logistische Regression gut kalibriert und wie kann ihre Kalibrierung ruiniert werden?

9

In den Scikit-Lerndokumenten zur Wahrscheinlichkeitskalibrierung vergleichen sie die logistische Regression mit anderen Methoden und stellen fest, dass die zufällige Gesamtstruktur weniger gut kalibriert ist als die logistische Regression.

Warum ist die logistische Regression gut kalibriert? Wie könnte man die Kalibrierung einer logistischen Regression ruinieren (nicht, dass man es jemals wollen würde - nur als Übung)?

user0
quelle

Antworten:

4

Obwohl sich diese Frage und ihre erste Antwort auf theoretische Fragen der logistischen Regressionsmodellkalibrierung zu konzentrieren scheinen, ist die Frage von:

Wie könnte man die Kalibrierung einer logistischen Regression ruinieren ...?

verdient einige Aufmerksamkeit in Bezug auf reale Anwendungen für zukünftige Leser dieser Seite. Wir sollten nicht vergessen, dass das logistische Regressionsmodell genau spezifiziert sein muss und dass dieses Problem für die logistische Regression besonders problematisch sein kann.

Erstens, wenn die Log-Quoten der Klassenmitgliedschaft nicht linear mit den im Modell enthaltenen Prädiktoren zusammenhängen, wird sie nicht gut kalibriert. Harrells Kapitel 10 über binäre logistische Regression widmet etwa 20 Seiten der "Bewertung der Modellanpassung", damit man die "asymptotische Unparteilichkeit des Maximum-Likelihood-Schätzers", wie @whuber es in der Praxis ausdrückte, nutzen kann.

Zweitens ist die Modellspezifikation ein besonderes Problem bei der logistischen Regression, da sie eine inhärente ausgelassene variable Verzerrung aufweist , die für diejenigen mit einem Hintergrund in der gewöhnlichen linearen Regression überraschend sein kann. Wie diese Seite es ausdrückt:

Ausgelassene Variablen beeinflussen die Koeffizienten für eingeschlossene Variablen, selbst wenn die ausgelassenen Variablen nicht mit den eingeschlossenen Variablen korreliert sind.

Diese Seite enthält auch eine nützliche Erklärung, warum dieses Verhalten zu erwarten ist, sowie eine theoretische Erklärung für verwandte, analytisch nachvollziehbare Probit-Modelle. Wenn Sie also nicht wissen, dass Sie alle Prädiktoren für die Klassenmitgliedschaft einbezogen haben, besteht in der Praxis möglicherweise die Gefahr einer Fehlspezifikation und einer schlechten Kalibrierung.

In Bezug auf die Modellspezifikation ist es durchaus möglich, dass baumbasierte Methoden wie Random Forest, die keine Linearität über einen ganzen Bereich von Prädiktorwerten annehmen und von Natur aus die Möglichkeit bieten, Interaktionen zwischen Prädiktoren zu finden und einzubeziehen, eine bessere Ergebnisse erzielen. kalibriertes Modell in der Praxis als ein logistisches Regressionsmodell, das Interaktionsterme oder Nichtlinearität nicht ausreichend berücksichtigt. In Bezug auf die ausgelassene variable Verzerrung ist mir nicht klar, ob eine Methode zur Bewertung der Klassenmitgliedschaftswahrscheinlichkeiten dieses Problem angemessen behandeln kann.

EdM
quelle
5

πθ(x)θ

zBer(p)pzXXyixiyiBer(π(xi))πθπθπDann ist der Lernvorgang konsistent und konvergiert zum optimalen Modell, wenn Sie mehr Daten erhalten. Daher kann die Begrenzung der Modellkapazität (z. B. weniger Merkmale) die Kalibrierung einer logistischen Regression behindern, indem der Abstand zwischen dem am besten lernbaren Modell und dem tatsächlichen Modell vergrößert wird.

Die Verwendung eines falschen Beobachtungsmodells mit der logistischen Regression führt zu nicht kalibrierten Wahrscheinlichkeiten. Die Modellierung von binären Ereignissen mit einer Normalverteilung ist unangemessen und sollte nicht in Kombination mit einer logistischen Regression verwendet werden. Die dem Normalverteilungsbeobachtungsmodell entsprechende Verlustfunktion ist der mittlere quadratische Fehler. Daher würde die Verwendung eines MSE-Verlusts dessen Kalibrierung mit Sicherheit behindern.

Cortax
quelle
2
Vorsichtiges Aufrufen der logistischen Regression als Klassifizierungsmethode auf dieser Website! Vielen Dank für die Antwort - es scheint, dass Sie implizieren, dass das Ziel des Protokollverlusts der Grund für die Kalibrierung ist (vorausgesetzt, das Modell ist ausreichend flexibel)?
user0
1
Ein Follow-up - Sie sagen, die Kalibrierung erfordert eine unvoreingenommene Schätzung der Wahrscheinlichkeit - daher ruiniert die Bestrafung die Kalibrierung?
user0
«LogisticRegression gibt standardmäßig gut kalibrierte Vorhersagen zurück, da es den Protokollverlust direkt optimiert» - scikit-learn.org/stable/modules/calibration.html
cortax
Per Definition ist Bestrafung oder Regularisierung eine Bias-Injektion, die häufig versucht, die Varianz des Schätzers zu verringern. Eine massive Regularisierung kann den Datenteil der Zielfunktion dominieren und die Kalibrierung definitiv ruinieren.
Cortax
2
Das Scikit-Learn-Zitat über "Optimiert den Protokollverlust" ist keine effektive Erklärung, da kein notwendiger Zusammenhang zwischen diesem und der Unparteilichkeit besteht. Wenn ich mich nicht irre, muss die richtige Antwort auf die Frage die asymptotische Unparteilichkeit des Maximum-Likelihood-Schätzers hervorrufen, der normalerweise in logistischen Regressionsverfahren verwendet wird.
whuber