Leute, die mit logistischer Regression arbeiten, sind mit dem Problem der perfekten Trennung vertraut: Wenn Sie eine Variable haben, deren spezifische Werte nur einem der beiden Ergebnisse zugeordnet sind (sagen wir ein binäres so dass alle Beobachtungen mit Ergebnis = 1 haben ), die Wahrscheinlichkeit explodiert und die Schätzungen der maximalen Wahrscheinlichkeit gehen bis ins Unendliche. in R kann dies schrecklich gut handhaben oder auch nicht, da die Fehlermeldung für die perfekte Vorhersage aus anderen Gründen als der perfekten Vorhersage / Trennung angezeigt werden kann. in Stata identifiziert solche Variablen und problematischen Werte und verwirft sie aus der Analyse.x = 1glm
logit
Meine Frage unterscheidet sich von der Frage, was zu tun ist, wenn Sie eine perfekte Trennung haben. Das kann ich tun, indem ich meine Variablen neu codiere (sie sind alle kategorisch, sodass ich einfach Kategorien kombinieren kann) oder mit der Firth-Version der logistischen Regression, wenn ich Lust habe.
Stattdessen frage ich mich, wie dies üblicherweise beschrieben wird. Ich habe einen Datensatz mit ca. 100 Patienten mit einem Anteil von etwa 50% "positiv", und einige Kategorien der demografischen Variablen liefern diese perfekte Vorhersage. Sagen wir einfach, dass alle 7 grünäugigen Menschen ein "positives" Ergebnis haben. Dies mag eine kleine Stichproben-Besonderheit sein, die verschwinden würde, wenn ich eine Stichprobengröße von 1000 und 70 grünäugigen Personen hätte, aber es könnte klinisch bedeutsam sein, da ich in dieser größeren Stichprobe 60 von 70 grünäugigen Personen haben könnte, die dies hätten ein "positives" Ergebnis mit hohen Quotenverhältnissen.
Es ist also schön zu sagen, dass ich eine Bayes'sche oder eine andere Schrumpfungsmethode verwendet habe, aber wenn ich beschreibe, wie ich dorthin gekommen bin, muss ich zugeben, dass ich eine perfekte Vorhersage / Trennung hatte und eine ausgefeiltere Technik finden musste, um Ergebnisse zu erzielen alle. Was wäre eine gute Sprache, um hier zu verwenden?
quelle
Antworten:
Während ich meine Ausgrabungsaktivitäten mit nicht beantworteten Fragen durchführte, fand ich diese sehr vernünftig, auf die das OP vermutlich inzwischen eine Antwort gefunden hat.
Mir wurde jedoch klar, dass ich verschiedene eigene Fragen zum Thema der perfekten Trennung in der logistischen Regression hatte, und eine (schnelle) Suche in der Literatur schien diese nicht zu beantworten. Also habe ich beschlossen, ein kleines eigenes Forschungsprojekt zu starten (wahrscheinlich das Rad neu zu erfinden), und mit dieser Antwort möchte ich einige seiner vorläufigen Ergebnisse teilen. Ich glaube, diese Ergebnisse tragen zu einem Verständnis bei, ob es sich bei der Frage der perfekten Trennung um eine rein "technische" handelt oder ob eine intuitivere Beschreibung / Erklärung gegeben werden kann.
Mein erstes Anliegen war es, das Phänomen in algorithmischen Begriffen und nicht in der allgemeinen Theorie dahinter zu verstehen: Unter welchen Bedingungen wird der Ansatz der Maximum-Likelihood-Schätzung "zusammenbrechen", wenn er mit einer Datenprobe gespeist wird, die einen Regressor enthält, für den das Phänomen perfekt ist Trennung besteht?
Vorläufige Ergebnisse (theoretisch und simuliert) zeigen Folgendes:0
1) Es ist wichtig, ob ein konstanter Term in der Logit-Spezifikation enthalten ist.
2) Es ist wichtig, ob der betreffende Regressor dichotom ist (in der Stichprobe) oder nicht.
3) Wenn dichotom, kann es wichtig sein, ob es den Wert annimmt oder nicht. 4) Es ist wichtig, ob andere Regressoren in der Spezifikation vorhanden sind oder nicht. 5) Es ist wichtig, wie die oben genannten 4 Themen kombiniert werden.
Ich werde nun eine Reihe ausreichender Bedingungen für eine perfekte Trennung vorstellen, damit die MLE zusammenbricht. Dies hängt nicht damit zusammen, ob die verschiedenen statistischen Softwareprogramme vor dem Phänomen warnen - sie können dies tun, indem sie die Datenprobe scannen, bevor sie versuchen, eine Maximum-Likelihood-Schätzung durchzuführen. Ich befasse mich mit den Fällen, in denen die Schätzung der maximalen Wahrscheinlichkeit beginnt - und in denen sie dabei zusammenbricht.
Nehmen Sie ein "übliches" logistisches Regressionsmodell mit binärer Auswahl an
Die MLE wird ermittelt, indem die Ableitungen auf Null gesetzt werden. Insbesondere wollen wir
Wir können dann Gleichung neu schreiben(1)
Ich sage nicht, dass eine solche Stichprobe keine unerwünschten Konsequenzen für die Eigenschaften des Schätzers usw. hat: Ich stelle nur fest, dass in einem solchen Fall der Schätzalgorithmus wie gewohnt ausgeführt wird.
quelle
glm