Likelihood Ratio vs Wald Test

10

Nach dem, was ich gelesen habe, sind unter anderem auf der Website der UCLA-Statistikberatungsgruppe Likelihood-Ratio-Tests und Wald-Tests ziemlich ähnlich, wenn getestet wird, ob zwei glm-Modelle einen signifikanten Unterschied in der Passform für einen Datensatz aufweisen (entschuldigen Sie, wenn mein Wortlaut könnte ein bisschen aus sein). Im Wesentlichen kann ich zwei Modelle vergleichen und testen, ob das zweite Modell eine deutlich bessere Passform aufweist als das erste oder ob es keinen Unterschied zwischen den Modellen gibt.

Daher sollten die LR- und Wald-Tests dieselben Ballpark-p-Werte für dieselben Regressionsmodelle zeigen. Zumindest sollte die gleiche Schlussfolgerung gezogen werden.

Jetzt habe ich beide Tests für dasselbe Modell in R durchgeführt und sehr unterschiedliche Ergebnisse erhalten. Hier sind die Ergebnisse von R für ein Modell:

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

Zu den Daten enthalten die Daten $ y Zähldaten und die Daten $ site_name sind ein Faktor mit 9 Ebenen. Daten $ y enthalten 54 Werte mit 6 Werten pro Datenebene $ site_name.

Hier sind Häufigkeitsverteilungen:

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

Jetzt passen diese Daten aufgrund der enormen Überstreuung der Nullzählungen nicht sehr gut zur Poissonverteilung. Aber mit einem anderen Modell, bei dem die Daten $ y> 0 recht gut zum Poisson-Modell passen, und wenn ich ein Poisson-Modell ohne Inflation verwende, erhalte ich immer noch sehr unterschiedliche Ergebnisse für Waldtests und LRT-Tests. Dort zeigt der Waldtest einen p-Wert von 0,03, während der lrtest einen p-Wert von 0,0003 hat. Immer noch ein Unterschied von Faktor 100, auch wenn die Schlussfolgerung dieselbe sein könnte.

Was verstehe ich hier falsch mit dem Likelihood-Verhältnis gegenüber Waldtest?

Dolf Andringa
quelle

Antworten:

15

Es ist wichtig zu beachten, dass der Likelihood-Ratio-Test und der Wald-Test zwar von Forschern verwendet werden, um dieselben empirischen Ziele zu erreichen, sie jedoch unterschiedliche Hypothesen testen . Der Likelihood-Ratio-Test bewertet, ob die Daten wahrscheinlich aus einem komplexeren Modell stammen als aus einem einfacheren Modell. Anders ausgedrückt: Ermöglicht das Hinzufügen eines bestimmten Effekts dem Modell, mehr Informationen zu berücksichtigen. Der Wald-Test bewertet umgekehrt, ob es wahrscheinlich ist, dass der geschätzte Effekt Null sein könnte. Es ist zwar ein nuancierter Unterschied, aber dennoch ein wichtiger konzeptioneller Unterschied.

Agresti (2007) stellt Likelihood-Ratio-Tests, Wald-Tests und eine dritte Methode, den "Score-Test", gegenüber (auf diesen Test geht er kaum weiter ein). Aus seinem Buch (S. 13):

Wenn die Stichprobengröße klein bis mäßig ist, ist der Wald-Test der am wenigsten zuverlässige der drei Tests. Wir sollten es für ein so kleines n wie in diesem Beispiel nicht vertrauen ( n = 10). Likelihood-Ratio-Inferenz und Score-Test-basierte Inferenz sind besser in Bezug auf die tatsächlichen Fehlerwahrscheinlichkeiten, die nahe an den nominalen Werten liegen. Eine deutliche Abweichung der Werte der drei Statistiken zeigt an, dass die Verteilung des ML-Schätzers weit von der Normalität entfernt sein kann. In diesem Fall sind Methoden mit kleinen Stichproben geeigneter als Methoden mit großen Stichproben.

Wenn Sie sich Ihre Daten und Ergebnisse ansehen, scheint es, dass Sie tatsächlich eine relativ kleine Stichprobe haben und daher möglicherweise mehr Wert auf die Likelihood-Ratio-Testergebnisse im Vergleich zu den Wald-Testergebnissen legen möchten.

Verweise

Agresti, A. (2007). Eine Einführung in die kategoriale Datenanalyse (2. Auflage) . Hoboken, NJ: John Wiley & Sons.

jsakaluk
quelle
Der Likelihood-Ratio-Test bewertet, ob die Daten wahrscheinlich aus einem komplexeren Modell stammen als aus einem einfacheren Modell. Sicherlich bewertet es die etwas andere Frage: "Welches Modell hätte mit der höchsten Wahrscheinlichkeit zu den beobachteten Daten geführt?" Sie scheinen einen Bayes-Faktor oder einen ähnlichen beschrieben zu haben, der Informationen über die vorherigen Wahrscheinlichkeiten erfordert ... ja?
Jake Westfall
Ist der Unterschied zwischen den beiden Fragen nicht das, gegen das Sie das zweite Modell testen? Wenn Sie ein lr mit y ~ 1 als Modell1 y ~ x als Modell2 ausführen, testet das lr tatsächlich, ob es wahrscheinlicher ist, dass die Daten durch ein komplexeres (Modell2) oder ein einfacheres Modell (Modell1) erklärt werden. Welches ist das gleiche in diesem Fall wie die Frage "durch welches Modell wird es mit der höchsten Wahrscheinlichkeit erklärt". Recht?
Dolf Andringa
3

Die beiden Tests sind asymptotisch äquivalent. Natürlich kann ihre Leistung (Größe und Leistung) in endlichen Stichproben unterschiedlich sein. Das Beste, was Sie tun können, um den Unterschied zu verstehen, ist, eine Monte-Carlo-Studie für eine ähnliche Umgebung wie Ihre durchzuführen.

user4422
quelle
3

Erstens stimme ich der Antwort von jsakaluk nicht zu, dass die beiden Tests unterschiedliche Dinge testen - beide testen, ob der Koeffizient im größeren Modell Null ist. Sie testen diese Hypothese nur, indem sie unterschiedliche Näherungen vornehmen (siehe Artikel, der unten verlinkt ist).

In Bezug auf die Unterschiede zwischen ihren Ergebnissen, wie jsakaluk sagte, ist dies wahrscheinlich auf die geringe Stichprobengröße zurückzuführen / dass die logarithmische Wahrscheinlichkeit alles andere als quadratisch ist. Ich habe 2014 einen Blog-Beitrag geschrieben, in dem ein einfaches Binomialmodell vorgestellt wird, das möglicherweise weiter hilft: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/

Jonathan Bartlett
quelle