Auf Seite 232 von "Ein R-Begleiter zur angewandten Regression" bemerken Fox und Weisberg
Nur die Gaußsche Familie hat eine konstante Varianz, und in allen anderen GLMs hängt die bedingte Varianz von y bei von
Zuvor haben sie festgestellt, dass die bedingte Varianz des Poisson und die des Binomials .
Für den Gaußschen ist dies eine bekannte und oft überprüfte Annahme (Homoskedastizität). In ähnlicher Weise sehe ich die bedingte Varianz des Poisson, die diskutiert wird, oft als eine Annahme der Poisson-Regression zusammen mit Abhilfemaßnahmen für Fälle, in denen sie verletzt wird (z. B. negatives Binomial, null aufgeblasen usw.). Dennoch sehe ich die bedingte Varianz für das diskutierte Binom niemals als eine Annahme in der logistischen Regression. Ein wenig googeln fand keine Erwähnung.
Was fehlt mir hier?
BEARBEITEN nach dem Kommentar von @whuber:
Wie vorgeschlagen schaue ich durch Hosmer & Lemeshow. Es ist interessant und ich denke, es zeigt, warum ich (und vielleicht andere) verwirrt sind. Zum Beispiel ist das Wort "Annahme" nicht im Index des Buches enthalten. Darüber hinaus haben wir dies (S. 175)
Bei der logistischen Regression müssen wir uns in erster Linie auf die visuelle Bewertung verlassen, da die Verteilung der Diagnostik unter der Hypothese, dass das Modell passt, nur in bestimmten begrenzten Umgebungen bekannt ist
Sie zeigen einige Diagramme, konzentrieren sich jedoch auf Streudiagramme verschiedener Residuen gegenüber der geschätzten Wahrscheinlichkeit. Diese Diagramme (selbst für ein gutes Modell haben nicht das "Blobby" -Muster, das für ähnliche Diagramme in der OLS-Regression charakteristisch ist, und sind daher schwerer zu beurteilen. Außerdem zeigen sie nichts, was mit Quantil-Diagrammen vergleichbar ist.
In R bietet plot.lm einen schönen Standardsatz von Plots zur Bewertung von Modellen. Ich kenne kein Äquivalent für die logistische Regression, obwohl es in einem Paket enthalten sein kann. Dies kann daran liegen, dass für jeden Modelltyp unterschiedliche Diagramme erforderlich sind. SAS bietet einige Grundstücke in PROC LOGISTIC an.
Dies scheint sicherlich ein Bereich potenzieller Verwirrung zu sein!
quelle
Antworten:
Das DHARMa R-Paket löst dieses Problem, indem es anhand des angepassten Modells simuliert, um die Residuen eines GL (M) M in einen standardisierten Raum umzuwandeln. Sobald dies geschehen ist, können alle regulären Methoden zur visuellen und formalen Bewertung von Restproblemen (z. B. qq-Diagramme, Überdispersion, Heteroskedastizität, Autokorrelation) angewendet werden. In der Paketvignette finden Sie Beispiele.
In Bezug auf den Kommentar von @Otto_K: Wenn homogene Überdispersion das einzige Problem ist, ist es wahrscheinlich einfacher, einen zufälligen Effekt auf Beobachtungsebene zu verwenden, der mit einem Standard-Binomial-GLMM implementiert werden kann. Ich denke jedoch, dass @PeterFlom auch über die Heteroskedastizität besorgt war, dh eine Änderung des Dispersionsparameters mit einigen Prädiktor- oder Modellvorhersagen. Dies wird nicht durch standardmäßige Überdispersionsprüfungen / -korrekturen erfasst / korrigiert, aber Sie können es in DHARMa-Restdiagrammen sehen. Zur Korrektur ist die Modellierung der Dispersion als Funktion von etwas anderem in JAGS oder STAN derzeit wahrscheinlich der einzige Weg.
quelle
Das Thema, das Sie erklären, wird häufig als Überdispersion bezeichnet . In meiner Arbeit sah ich eine mögliche Lösung für ein solches Thema:
Verwendung eines Bayes'schen Ansatzes und Schätzung einer Beta-Binomial-Verteilung. Dies hat den großen Vorteil gegenüber anderen Verteilungen (induziert durch andere Prioritäten), eine Lösung in geschlossener Form zu haben.
Verweise:
quelle