Was bedeuten die Residuen in einer logistischen Regression?

62

Bei der Beantwortung dieser Frage schlug John Christie vor, die Anpassung logistischer Regressionsmodelle durch Auswertung der Residuen zu bewerten. Ich kenne mich mit der Interpretation von Residuen in OLS aus. Sie sind im selben Maßstab wie die DV und sehr deutlich der Unterschied zwischen y und dem vom Modell vorhergesagten y. Für die logistische Regression habe ich in der Vergangenheit jedoch nur Schätzungen der Modellanpassung untersucht, z. B. AIC, weil ich nicht sicher war, was ein Residuum für eine logistische Regression bedeuten würde. Nach einem Blick in der Hilfe der R - Dateien ein wenig ich in R zu sehen , dass es fünf Arten von GLM Residuen zur Verfügung steht, c("deviance", "pearson", "working","response", "partial"). Die Hilfedatei bezieht sich auf:

Ich habe keine Kopie davon. Gibt es eine kurze Beschreibung, wie jeder dieser Typen zu interpretieren ist? Wird im logistischen Kontext die Summe der quadratischen Residuen ein aussagekräftiges Maß für die Modellanpassung liefern, oder ist ein Informationskriterium besser geeignet?

russellpierce
quelle
2
Es gibt Elemente zu dieser Frage, die unbeantwortet bleiben, z. B. die Art der "Pearson-", "Working-", "Response-" und "Partial-" Residuen, aber im Moment werde ich Thylacoleos Antwort akzeptieren.
Russellpierce
Ich finde, dass die binnedplotFunktion im R-Paket- Arm eine sehr hilfreiche Darstellung von Residuen liefert. Es ist schön auf S.97-101 von Gelman und Hill 2007 beschrieben .
Conjugateprior
1
Eine sehr einfache Möglichkeit, die Modellanpassung zu überprüfen, besteht darin, die beobachteten Proportionen mit den vorhergesagten Proportionen zu vergleichen. Dies funktioniert jedoch nicht, wenn Sie eine Bernoulli-Regression haben (dh alle Ihre Beobachtungen haben eindeutige Kombinationen der unabhängigen Variablen, sodass ), da Sie nur eine Reihe von Nullen und Einsen sehen. ni=1
Wahrscheinlichkeitslogik
Ja - leider benutze ich normalerweise einen Bernoulli DV.
Russellpierce
1
Siehe auch glm $ Residuen und resid (GLM) Verständnis auf Stack - Überlauf .
gung - Wiedereinsetzung von Monica

Antworten:

32

Die Residuen, die am einfachsten zu verstehen sind, sind die Abweichungs-Residuen, wenn diese Summe auf das -2-fache der log-Wahrscheinlichkeit quadriert wird. Im einfachsten Sinne kann logistische Regression so verstanden werden, dass die Funktion für bekanntes so angepasst wird , dass die Gesamtabweichung, also die Summe, minimiert wird von quadratischen Abweichungsresten aller Datenpunkte.p=logit1(Xβ)X

Die (quadrierte) Abweichung jedes Datenpunkts ist gleich (-2 mal) dem Logarithmus der Differenz zwischen seiner vorhergesagten Wahrscheinlichkeit und dem Komplement seines tatsächlichen Werts (1 für eine Kontrolle, eine 0 für einen Fall in absoluten Zahlen. Eine perfekte Anpassung eines Punktes (die niemals auftritt) ergibt eine Abweichung von Null, da log (1) Null ist. Ein schlecht angepasster Punkt weist eine große Restabweichung auf, da das -2-fache des Protokolls eines sehr kleinen Werts eine große Zahl ist.logit1(Xβ)

Die logistische Regression ist vergleichbar mit der Ermittlung eines Beta-Werts, bei dem die Summe der quadratischen Abweichungsreste minimiert wird.

Dies kann mit einem Plot illustriert werden, aber ich weiß nicht, wie ich einen hochladen soll.

Thylacoleo
quelle
1
Passende Bilder: Verwenden Sie eine der kostenlosen Bild-Hosting-Sites (Google-Suche), laden Sie das Grundstück auf diese Site hoch und verlinken Sie es hier.
Ich habe einen Fehler in meiner ursprünglichen Antwort korrigiert. Ich habe zuerst p = logit (X beta) geschrieben. Tatsächlich ist die vorhergesagte Wahrscheinlichkeit das inverse Logit der linearen Kombination, p = inv-logit (X beta). In R wird dies als p <-Plogit (X beta) berechnet , was p = exp (X beta) / (1 + exp (X * beta)) ist.
Thylacoleo
1
Welches R-Paket ist plogitvon? Es war nicht klar, ob Sie es hier definieren oder von einem anderen Ort beziehen.
Amyunimus
1
@ Amyunimus plogitist in R (Statistiken), kein Paket erforderlich (zumindest nicht mehr)
Russellpierce
7

Auf Pearsons Residuen,

Das Pearson-Residuum ist die Differenz zwischen der beobachteten und der geschätzten Wahrscheinlichkeit geteilt durch die binomiale Standardabweichung der geschätzten Wahrscheinlichkeit. Daher Standardisierung der Residuen. Für große Proben sollten die standardisierten Residuen eine Normalverteilung haben.

Von Menard, Scott (2002). Angewandte logistische Regressionsanalyse, 2. Auflage. Tausend Eichen, CA: Weise Veröffentlichungen. Reihe: Quantitative Anwendungen in den Sozialwissenschaften, Nr. 106. Erste Ausgabe, 1995. Siehe Kapitel 4.4

tosonb1
quelle
8
Dies ist bei großen Proben nicht ganz richtig. Es ist vielmehr so, dass Sie große Binomialzellenzahlen oder, was dasselbe ist, eine große Menge an Replikation von Kovariaten benötigen . Die Pearson-Residuen sind bei keiner Beobachtung mit normalverteilt . n i < 5nini<5
Wahrscheinlichkeitslogik
5

Die funktionierenden Residuen sind die Residuen in der endgültigen Iteration einer iterativ gewichteten Methode der kleinsten Quadrate . Ich gehe davon aus, dass dies die Residuen sind, wenn wir glauben, dass dies die letzte Iteration unseres Modelllaufs ist. Dies kann zu Diskussionen darüber führen, dass das Modelllaufen eine iterative Übung ist.

Ayush Biyani
quelle