Bei der Beantwortung dieser Frage schlug John Christie vor, die Anpassung logistischer Regressionsmodelle durch Auswertung der Residuen zu bewerten. Ich kenne mich mit der Interpretation von Residuen in OLS aus. Sie sind im selben Maßstab wie die DV und sehr deutlich der Unterschied zwischen y und dem vom Modell vorhergesagten y. Für die logistische Regression habe ich in der Vergangenheit jedoch nur Schätzungen der Modellanpassung untersucht, z. B. AIC, weil ich nicht sicher war, was ein Residuum für eine logistische Regression bedeuten würde. Nach einem Blick in der Hilfe der R - Dateien ein wenig ich in R zu sehen , dass es fünf Arten von GLM Residuen zur Verfügung steht, c("deviance", "pearson", "working","response", "partial")
. Die Hilfedatei bezieht sich auf:
- Davison, AC und Snell, EJ (1991) Residuen und Diagnostika. In: Statistische Theorie und Modellierung. Zu Ehren von Sir David Cox, FRS , Hrsg. Hinkley, DV, Reid, N. und Snell, EJ, Chapman & Hall.
Ich habe keine Kopie davon. Gibt es eine kurze Beschreibung, wie jeder dieser Typen zu interpretieren ist? Wird im logistischen Kontext die Summe der quadratischen Residuen ein aussagekräftiges Maß für die Modellanpassung liefern, oder ist ein Informationskriterium besser geeignet?
binnedplot
Funktion im R-Paket- Arm eine sehr hilfreiche Darstellung von Residuen liefert. Es ist schön auf S.97-101 von Gelman und Hill 2007 beschrieben .Antworten:
Die Residuen, die am einfachsten zu verstehen sind, sind die Abweichungs-Residuen, wenn diese Summe auf das -2-fache der log-Wahrscheinlichkeit quadriert wird. Im einfachsten Sinne kann logistische Regression so verstanden werden, dass die Funktion für bekanntes so angepasst wird , dass die Gesamtabweichung, also die Summe, minimiert wird von quadratischen Abweichungsresten aller Datenpunkte.p=logit−1(Xβ) X
Die (quadrierte) Abweichung jedes Datenpunkts ist gleich (-2 mal) dem Logarithmus der Differenz zwischen seiner vorhergesagten Wahrscheinlichkeit und dem Komplement seines tatsächlichen Werts (1 für eine Kontrolle, eine 0 für einen Fall in absoluten Zahlen. Eine perfekte Anpassung eines Punktes (die niemals auftritt) ergibt eine Abweichung von Null, da log (1) Null ist. Ein schlecht angepasster Punkt weist eine große Restabweichung auf, da das -2-fache des Protokolls eines sehr kleinen Werts eine große Zahl ist.logit−1(Xβ)
Die logistische Regression ist vergleichbar mit der Ermittlung eines Beta-Werts, bei dem die Summe der quadratischen Abweichungsreste minimiert wird.
Dies kann mit einem Plot illustriert werden, aber ich weiß nicht, wie ich einen hochladen soll.
quelle
plogit
von? Es war nicht klar, ob Sie es hier definieren oder von einem anderen Ort beziehen.plogit
ist in R (Statistiken), kein Paket erforderlich (zumindest nicht mehr)Auf Pearsons Residuen,
Das Pearson-Residuum ist die Differenz zwischen der beobachteten und der geschätzten Wahrscheinlichkeit geteilt durch die binomiale Standardabweichung der geschätzten Wahrscheinlichkeit. Daher Standardisierung der Residuen. Für große Proben sollten die standardisierten Residuen eine Normalverteilung haben.
Von Menard, Scott (2002). Angewandte logistische Regressionsanalyse, 2. Auflage. Tausend Eichen, CA: Weise Veröffentlichungen. Reihe: Quantitative Anwendungen in den Sozialwissenschaften, Nr. 106. Erste Ausgabe, 1995. Siehe Kapitel 4.4
quelle
Die funktionierenden Residuen sind die Residuen in der endgültigen Iteration einer iterativ gewichteten Methode der kleinsten Quadrate . Ich gehe davon aus, dass dies die Residuen sind, wenn wir glauben, dass dies die letzte Iteration unseres Modelllaufs ist. Dies kann zu Diskussionen darüber führen, dass das Modelllaufen eine iterative Übung ist.
quelle