Ich habe ein logistisches GLM-Modell mit 8 Variablen. Ich habe einen Chi-Quadrat-Test in R durchgeführt, anova(glm.model,test='Chisq')
und 2 der Variablen haben sich als vorhersagend erwiesen, wenn sie oben im Test bestellt wurden, und nicht so sehr, wenn sie unten bestellt wurden. Das summary(glm.model)
deutet darauf hin, dass ihre Koeffizienten unbedeutend sind (hoher p-Wert). In diesem Fall scheinen die Variablen nicht signifikant zu sein.
Ich wollte fragen, welches ein besserer Test für die Signifikanz von Variablen ist - die Koeffizientensignifikanz in der Modellzusammenfassung oder der Chi-Quadrat-Test von anova()
. Also - wann ist einer besser als der andere?
Ich denke, es ist eine weit gefasste Frage, aber alle Hinweise auf das, was zu berücksichtigen ist, werden gewürdigt.
Antworten:
Zusätzlich zur Antwort von @ gung werde ich versuchen, ein Beispiel dafür zu liefern, was die
anova
Funktion tatsächlich testet. Ich hoffe, dass Sie auf diese Weise entscheiden können, welche Tests für die Hypothesen geeignet sind, die Sie testen möchten.Angenommen, Sie haben ein Ergebnis und 3 Prädiktorvariablen: , und . Nun, wenn Ihr logistisches Regressionsmodell wäre . Wenn Sie ausführen , vergleicht die Funktion die folgenden Modelle nacheinander:y x1 x2 x3
my.mod <- glm(y~x1+x2+x3, family="binomial")
anova(my.mod, test="Chisq")
glm(y~1, family="binomial")
gegenglm(y~x1, family="binomial")
glm(y~x1, family="binomial")
gegenglm(y~x1+x2, family="binomial")
glm(y~x1+x2, family="binomial")
gegenglm(y~x1+x2+x3, family="binomial")
Daher wird das kleinere Modell nacheinander mit dem nächst komplexeren Modell verglichen, indem in jedem Schritt eine Variable hinzugefügt wird. Jeder dieser Vergleiche erfolgt über einen Likelihood-Ratio-Test (LR-Test; siehe Beispiel unten). Meines Wissens sind diese Hypothesen selten von Interesse, aber dies muss von Ihnen entschieden werden.
Hier ist ein Beispiel in
R
:Die Werte in der Ausgabe von sind Wald-Tests, die die folgenden Hypothesen prüfen (beachten Sie, dass sie austauschbar sind und die Reihenfolge der Tests keine Rolle spielt ):p
summary(my.mod)
x1
:glm(y~x2+x3, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
x2
:glm(y~x1+x3, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
x3
:glm(y~x1+x2, family="binomial")
vs.glm(y~x1+x2+x3, family="binomial")
Also jeder Koeffizient gegen das Vollmodell enthält alle Koeffizienten. Wald-Tests sind eine Annäherung an den Likelihood-Ratio-Test. Wir könnten auch die Likelihood-Ratio-Tests (LR-Test) durchführen. Hier ist, wie:
Die Werte aus den Likelihood-Ratio-Tests sind denjenigen sehr ähnlich, die durch die Wald-Tests von oben erhalten wurden.p
summary(my.mod)
Hinweis: Der dritte Modellvergleich fürp 7,088 ⋅ 10- 5
rank
of entsprichtanova(my.mod, test="Chisq")
dem Vergleich fürrank
das folgende Beispiel (anova(mod1.2, my.mod, test="Chisq")
). Der Wert ist jedes Mal der gleiche, . Es ist jedes Mal der Vergleich zwischen dem Modell ohne und dem Modell, das es enthält.rank
quelle
test="Chisq"
Sie keinen Likelihood-Ratio-Test durchführen, müssen Sie dies festlegentest="LRT"
, siehe ? Anova.glm .test="LRT"
undtest="Chisq"
sind auch (es steht auf der von dir verlinkten seite).test="LRT"
ist besser, da sofort klar ist, dass es sich um einen Likelihood-Ratio-Test handelt. Ich habe es geändert. Vielen Dank.7.088e-05, 0.01419, 00.03684
) interpretiert werden sollen?