Annahmen verallgemeinerter linearer Modelle

Auf Seite 232 von "Ein R-Begleiter zur angewandten Regression" bemerken Fox und Weisberg

Nur die Gaußsche Familie hat eine konstante Varianz, und in allen anderen GLMs hängt die bedingte Varianz von y bei von $\bf{x}$ $\mu(x)$

Zuvor haben sie festgestellt, dass die bedingte Varianz des Poisson und die des Binomials . $\mu$ $\frac{\mu(1-\mu)}{N}$

Für den Gaußschen ist dies eine bekannte und oft überprüfte Annahme (Homoskedastizität). In ähnlicher Weise sehe ich die bedingte Varianz des Poisson, die diskutiert wird, oft als eine Annahme der Poisson-Regression zusammen mit Abhilfemaßnahmen für Fälle, in denen sie verletzt wird (z. B. negatives Binomial, null aufgeblasen usw.). Dennoch sehe ich die bedingte Varianz für das diskutierte Binom niemals als eine Annahme in der logistischen Regression. Ein wenig googeln fand keine Erwähnung.

Was fehlt mir hier?

BEARBEITEN nach dem Kommentar von @whuber:

Wie vorgeschlagen schaue ich durch Hosmer & Lemeshow. Es ist interessant und ich denke, es zeigt, warum ich (und vielleicht andere) verwirrt sind. Zum Beispiel ist das Wort "Annahme" nicht im Index des Buches enthalten. Darüber hinaus haben wir dies (S. 175)

Bei der logistischen Regression müssen wir uns in erster Linie auf die visuelle Bewertung verlassen, da die Verteilung der Diagnostik unter der Hypothese, dass das Modell passt, nur in bestimmten begrenzten Umgebungen bekannt ist

Sie zeigen einige Diagramme, konzentrieren sich jedoch auf Streudiagramme verschiedener Residuen gegenüber der geschätzten Wahrscheinlichkeit. Diese Diagramme (selbst für ein gutes Modell haben nicht das "Blobby" -Muster, das für ähnliche Diagramme in der OLS-Regression charakteristisch ist, und sind daher schwerer zu beurteilen. Außerdem zeigen sie nichts, was mit Quantil-Diagrammen vergleichbar ist.

In R bietet plot.lm einen schönen Standardsatz von Plots zur Bewertung von Modellen. Ich kenne kein Äquivalent für die logistische Regression, obwohl es in einem Paket enthalten sein kann. Dies kann daran liegen, dass für jeden Modelltyp unterschiedliche Diagramme erforderlich sind. SAS bietet einige Grundstücke in PROC LOGISTIC an.

Dies scheint sicherlich ein Bereich potenzieller Verwirrung zu sein!

logistic generalized-linear-model Peter Flom - Monica wieder einsetzen
quelle

Wenn Sie eine Kopie von Hosmer & Lemeshow, Applied Logistic Regression, haben, lesen Sie das Kapitel "Bewertung der Anpassung des Modells": Die bedingte Varianz des Binomials wird überall angezeigt und in fast allen GoF-Tests explizit berücksichtigt.

whuber

Ich denke, die Binomialannahme wird durch das reale Experiment auferlegt: Die Antworten sind unabhängig von 0/1, daher ist die Binomialverteilung die einzige, die das reale Experiment modelliert. Im Gegenteil, die Annahme der Poisson-Verteilung für Zählungen ist nicht realistisch.

Stéphane Laurent

Danke @whuber. Ich habe dieses Buch und werde es überprüfen

Peter Flom - Reinstate Monica

... aber die Link-Funktion ist nicht natürlich und bestimmt die bedingte Varianz ... daher war mein obiger Kommentar nicht sehr sinnvoll

Stéphane Laurent

Antworten:

Diese Diagramme (selbst für ein gutes Modell haben nicht das "Blobby" -Muster, das für ähnliche Diagramme in der OLS-Regression charakteristisch ist, und sind daher schwerer zu beurteilen. Außerdem zeigen sie nichts, was mit Quantil-Diagrammen vergleichbar ist.

Das DHARMa R-Paket löst dieses Problem, indem es anhand des angepassten Modells simuliert, um die Residuen eines GL (M) M in einen standardisierten Raum umzuwandeln. Sobald dies geschehen ist, können alle regulären Methoden zur visuellen und formalen Bewertung von Restproblemen (z. B. qq-Diagramme, Überdispersion, Heteroskedastizität, Autokorrelation) angewendet werden. In der Paketvignette finden Sie Beispiele.

In Bezug auf den Kommentar von @Otto_K: Wenn homogene Überdispersion das einzige Problem ist, ist es wahrscheinlich einfacher, einen zufälligen Effekt auf Beobachtungsebene zu verwenden, der mit einem Standard-Binomial-GLMM implementiert werden kann. Ich denke jedoch, dass @PeterFlom auch über die Heteroskedastizität besorgt war, dh eine Änderung des Dispersionsparameters mit einigen Prädiktor- oder Modellvorhersagen. Dies wird nicht durch standardmäßige Überdispersionsprüfungen / -korrekturen erfasst / korrigiert, aber Sie können es in DHARMa-Restdiagrammen sehen. Zur Korrektur ist die Modellierung der Dispersion als Funktion von etwas anderem in JAGS oder STAN derzeit wahrscheinlich der einzige Weg.

Florian Hartig
quelle

Das Thema, das Sie erklären, wird häufig als Überdispersion bezeichnet . In meiner Arbeit sah ich eine mögliche Lösung für ein solches Thema:

Verwendung eines Bayes'schen Ansatzes und Schätzung einer Beta-Binomial-Verteilung. Dies hat den großen Vorteil gegenüber anderen Verteilungen (induziert durch andere Prioritäten), eine Lösung in geschlossener Form zu haben.

Verweise:

Beta-Binomialverteilung
Peter Hoff Bayes Schätzer Notizen ( pdf )

Otto_K
quelle