Wald-Test in Regression (OLS und GLM): t- vs. z-Verteilung

22

Ich verstehe, dass der Wald-Test für Regressionskoeffizienten auf der folgenden Eigenschaft basiert, die asymptotisch gilt (z. B. Wasserman (2006): All of Statistics , S. 153, 214-215): Wobei den geschätzten Regressionskoeffizienten bezeichnet, bezeichnet den Standardfehler des Regressionskoeffizienten und ist der interessierende Wert ( ist normalerweise 0, um zu testen, ob der Koeffizient ist) signifikant verschieden von 0). Der Size Wald-Test lautet also: reject whenβ^se(β)β0β0αH0| W| >zα/2

(β^β0)se^(β^)N(0,1)
β^se^(β^)β0β0αH0|W|>zα/2 wobei
W=β^se^(β^).

Wenn Sie jedoch eine lineare Regression mit lmin R durchführen, wird ein Wert anstelle eines Werts verwendet, um zu testen, ob sich die Regressionskoeffizienten signifikant von 0 (mit ) unterscheiden. Darüber hinaus liefert die Ausgabe von in R manchmal und manchmal Werte als Teststatistik. Offensichtlich werden Werte verwendet, wenn angenommen wird, dass der Dispersionsparameter bekannt ist, und Werte werden verwendet, wenn der Dispersionsparameter geschätzt wird (siehe diesen Link ).z z t z ttzsummary.lmglmztzt

Könnte jemand erklären, warum manchmal eine Verteilung für einen Wald-Test verwendet wird, obwohl angenommen wird, dass das Verhältnis des Koeffizienten und seines Standardfehlers als Standardnormal verteilt ist?t

Bearbeiten, nachdem die Frage beantwortet wurde

Dieser Beitrag enthält auch nützliche Informationen zu der Frage.

COOLSerdash
quelle
2
Was lässt Sie denken, dass die gemeldete Teststatistik notwendigerweise ein Wald-Test ist?
Glen_b -Reinstate Monica
3
Denn die oder Werte sind immer der Koeffizient dividiert durch seinen Standardfehler in und . tztlmglm
COOLSerdash

Antworten:

20

Die Ausgabe glmeiner Poisson-Verteilung ergibt einen Wert, da bei einer Poisson-Verteilung der Mittelwert und der Varianzparameter identisch sind. Im Poisson-Modell müssen Sie nur einen einzigen Parameter ( ) schätzen . In a, wo Sie sowohl einen Mittelwert als auch einen Dispersionsparameter schätzen müssen, sollten Sie die verwendete Verteilung sehen .λ tzλglmt

Bei einer linearen Standardregression wird davon ausgegangen, dass der Fehlerterm normalverteilt ist. Hier muss der Varianzparameter geschätzt werden - daher die Verwendung der Verteilung für die Teststatistik. Wenn Sie die Populationsvarianz für den Fehlerterm irgendwie kennen, können Sie stattdessen eine Test-Statistik verwenden.ztz

Wie Sie in Ihrem Beitrag erwähnen, ist die Verteilung des Tests asymptotisch normal. Die Verteilung ist asymptotisch normal, so dass bei einer großen Stichprobe der Unterschied vernachlässigbar wäre.t

Wcampbell
quelle
3

Im GLM Rahmen im Allgemeinen die W - Teststatistik erwähnt Sie asymptotisch normal verteilt, das ist , warum Sie in der R die sehen z Werte.

Zusätzlich zu , dass, wenn sie mit einem linearen Modell, dh ein GLM bei einer normalverteilten Reaktionsvariable, die Verteilung der Teststatistik zu tun ist ein t Student , so in R Sie haben t - Werte.

EdoLu
quelle