Testen auf Überdispersion in der logistischen Regression

8

R in Action (Kabacoff, 2011) schlägt die folgende Routine vor, um die Überdispersion in einer logistischen Regression zu testen:

Passen Sie die logistische Regression mithilfe der Binomialverteilung an:

model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
                   family=binomial(), data=iris)

Anpassung der logistischen Regression mithilfe der Quasibinomverteilung:

model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, 
                           family=quasibinomial(), data=iris)

Verwenden Sie Chi-Quadrat, um auf Überdispersion zu testen:

pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, 
       model_binom$df.residual, lower = F)
# [1] 0.7949171

Könnte jemand erklären, wie und warum die Chi-Quadrat-Verteilung hier verwendet wird, um auf Überdispersion zu testen? Der p-Wert beträgt 0,79 - wie zeigt dies, dass Überdispersion im Binomialverteilungsmodell kein Problem darstellt?

luciano
quelle
2
Es ist ziemlich schwierig, die Bernoulli-Verteilung nur anzupassen, wenn Sie die Beobachtungen korreliert haben. Was ist mit der Passform, die Sie für unzureichend halten?
Frank Harrell
Mit korrelierten Beobachtungen meinen Sie, dass jeder Bernoulli-Versuch nicht unabhängig ist?
Luciano
1
Ja, z. B. serielle oder gruppeninterne Korrelation; nicht unabhängige Studien.
Frank Harrell

Antworten:

4

Der beschriebene Ansatz erfordert unnötige Berechnungen. Die Teststatistik ist gerecht

sum(residuals(model_binom, type = "deviance")^2)

χ2

χ2

oleh
quelle
4
Sollte die obige Antwort nicht wie folgt geändert werden? sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual
Steve VW