Obwohl sich diese Frage und ihre erste Antwort auf theoretische Fragen der logistischen Regressionsmodellkalibrierung zu konzentrieren scheinen, ist die Frage von:
Wie könnte man die Kalibrierung einer logistischen Regression ruinieren ...?
verdient einige Aufmerksamkeit in Bezug auf reale Anwendungen für zukünftige Leser dieser Seite. Wir sollten nicht vergessen, dass das logistische Regressionsmodell genau spezifiziert sein muss und dass dieses Problem für die logistische Regression besonders problematisch sein kann.
Erstens, wenn die Log-Quoten der Klassenmitgliedschaft nicht linear mit den im Modell enthaltenen Prädiktoren zusammenhängen, wird sie nicht gut kalibriert. Harrells Kapitel 10 über binäre logistische Regression widmet etwa 20 Seiten der "Bewertung der Modellanpassung", damit man die "asymptotische Unparteilichkeit des Maximum-Likelihood-Schätzers", wie @whuber es in der Praxis ausdrückte, nutzen kann.
Zweitens ist die Modellspezifikation ein besonderes Problem bei der logistischen Regression, da sie eine inhärente ausgelassene variable Verzerrung aufweist , die für diejenigen mit einem Hintergrund in der gewöhnlichen linearen Regression überraschend sein kann. Wie diese Seite es ausdrückt:
Ausgelassene Variablen beeinflussen die Koeffizienten für eingeschlossene Variablen, selbst wenn die ausgelassenen Variablen nicht mit den eingeschlossenen Variablen korreliert sind.
Diese Seite enthält auch eine nützliche Erklärung, warum dieses Verhalten zu erwarten ist, sowie eine theoretische Erklärung für verwandte, analytisch nachvollziehbare Probit-Modelle. Wenn Sie also nicht wissen, dass Sie alle Prädiktoren für die Klassenmitgliedschaft einbezogen haben, besteht in der Praxis möglicherweise die Gefahr einer Fehlspezifikation und einer schlechten Kalibrierung.
In Bezug auf die Modellspezifikation ist es durchaus möglich, dass baumbasierte Methoden wie Random Forest, die keine Linearität über einen ganzen Bereich von Prädiktorwerten annehmen und von Natur aus die Möglichkeit bieten, Interaktionen zwischen Prädiktoren zu finden und einzubeziehen, eine bessere Ergebnisse erzielen. kalibriertes Modell in der Praxis als ein logistisches Regressionsmodell, das Interaktionsterme oder Nichtlinearität nicht ausreichend berücksichtigt. In Bezug auf die ausgelassene variable Verzerrung ist mir nicht klar, ob eine Methode zur Bewertung der Klassenmitgliedschaftswahrscheinlichkeiten dieses Problem angemessen behandeln kann.