Nach dem, was ich gelesen habe, sind unter anderem auf der Website der UCLA-Statistikberatungsgruppe Likelihood-Ratio-Tests und Wald-Tests ziemlich ähnlich, wenn getestet wird, ob zwei glm-Modelle einen signifikanten Unterschied in der Passform für einen Datensatz aufweisen (entschuldigen Sie, wenn mein Wortlaut könnte ein bisschen aus sein). Im Wesentlichen kann ich zwei Modelle vergleichen und testen, ob das zweite Modell eine deutlich bessere Passform aufweist als das erste oder ob es keinen Unterschied zwischen den Modellen gibt.
Daher sollten die LR- und Wald-Tests dieselben Ballpark-p-Werte für dieselben Regressionsmodelle zeigen. Zumindest sollte die gleiche Schlussfolgerung gezogen werden.
Jetzt habe ich beide Tests für dasselbe Modell in R durchgeführt und sehr unterschiedliche Ergebnisse erhalten. Hier sind die Ergebnisse von R für ein Modell:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
Zu den Daten enthalten die Daten $ y Zähldaten und die Daten $ site_name sind ein Faktor mit 9 Ebenen. Daten $ y enthalten 54 Werte mit 6 Werten pro Datenebene $ site_name.
Hier sind Häufigkeitsverteilungen:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Jetzt passen diese Daten aufgrund der enormen Überstreuung der Nullzählungen nicht sehr gut zur Poissonverteilung. Aber mit einem anderen Modell, bei dem die Daten $ y> 0 recht gut zum Poisson-Modell passen, und wenn ich ein Poisson-Modell ohne Inflation verwende, erhalte ich immer noch sehr unterschiedliche Ergebnisse für Waldtests und LRT-Tests. Dort zeigt der Waldtest einen p-Wert von 0,03, während der lrtest einen p-Wert von 0,0003 hat. Immer noch ein Unterschied von Faktor 100, auch wenn die Schlussfolgerung dieselbe sein könnte.
Was verstehe ich hier falsch mit dem Likelihood-Verhältnis gegenüber Waldtest?
quelle
Die beiden Tests sind asymptotisch äquivalent. Natürlich kann ihre Leistung (Größe und Leistung) in endlichen Stichproben unterschiedlich sein. Das Beste, was Sie tun können, um den Unterschied zu verstehen, ist, eine Monte-Carlo-Studie für eine ähnliche Umgebung wie Ihre durchzuführen.
quelle
Erstens stimme ich der Antwort von jsakaluk nicht zu, dass die beiden Tests unterschiedliche Dinge testen - beide testen, ob der Koeffizient im größeren Modell Null ist. Sie testen diese Hypothese nur, indem sie unterschiedliche Näherungen vornehmen (siehe Artikel, der unten verlinkt ist).
In Bezug auf die Unterschiede zwischen ihren Ergebnissen, wie jsakaluk sagte, ist dies wahrscheinlich auf die geringe Stichprobengröße zurückzuführen / dass die logarithmische Wahrscheinlichkeit alles andere als quadratisch ist. Ich habe 2014 einen Blog-Beitrag geschrieben, in dem ein einfaches Binomialmodell vorgestellt wird, das möglicherweise weiter hilft: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/
quelle