Testen von logistischen Regressionskoeffizienten unter Verwendung von Freiheitsgraden

12

Zusammenfassung: Gibt es eine statistische Theorie, die die Verwendung der Verteilung (mit Freiheitsgraden basierend auf der Restabweichung) für Tests von logistischen Regressionskoeffizienten anstelle der Standardnormalverteilung unterstützt? $t$

Vor einiger Zeit habe ich festgestellt, dass beim Anpassen eines logistischen Regressionsmodells in SAS PROC GLIMMIX unter den Standardeinstellungen die logistischen Regressionskoeffizienten unter Verwendung einer Verteilung anstelle der Standardnormalverteilung getestet werden . Das heißt, berichtet glimmix eine Spalte mit dem Verhältnis $t$ $^1$ (die ich nennenin den Rest dieser Frage), sondern berichtet auch eine „Freiheitsgrade“ Säule sowie einenWert basiert auf einer AnnahmeVerteilung fürmit Freiheitsgraden basierend auf der verbleibenden Abweichung - das heißt Freiheitsgrade = Gesamtzahl der Beobachtungen minus Anzahl der Parameter. Am Ende dieser Frage stelle ich einen Code und eine Ausgabe in R und SAS zur Demonstration und zum Vergleich bereit. $\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}$ $z$ $p$ $t$ $z$ $^2$

Dies verwirrte mich, da ich dachte, dass es für verallgemeinerte lineare Modelle wie die logistische Regression keine statistische Theorie gibt, die die Verwendung des $t$ Verteilung in diesem Fall unterstützt. Stattdessen dachte ich, was wir über diesen Fall wussten, war das

$z$ ist "ungefähr" normalverteilt;
Diese Annäherung könnte für kleine Stichprobengrößen schlecht sein.
es kann jedoch nicht angenommen werden, dass eine Verteilung hat, wie wir sie im Fall einer normalen Regression annehmen können. $z$ $t$

Nun, auf einer intuitiven Ebene erscheint es mir vernünftig, dass wenn ungefähr normalverteilt ist, es tatsächlich eine Verteilung haben könnte, die grundsätzlich " ähnlich" ist, auch wenn es nicht genau . Die Verwendung der Verteilung hier scheint also nicht verrückt zu sein. Aber was ich wissen möchte, ist Folgendes: $z$ $t$ $t$ $t$

Gibt es tatsächlich eine statistische Theorie, die zeigt, dass bei logistischer Regression und / oder anderen verallgemeinerten linearen Modellen tatsächlich einer Verteilung folgt ? $z$ $t$
Wenn es eine solche Theorie nicht gibt, gibt es dann zumindest Veröffentlichungen, die belegen, dass die Annahme einer solchen Verteilung genauso gut oder sogar besser ist als die Annahme einer Normalverteilung? $t$

Gibt es generell irgendeine tatsächliche Unterstützung für das, was GLIMMIX hier tut, außer der Intuition, dass es wahrscheinlich grundsätzlich sinnvoll ist?

R-Code:

summary(glm(y ~ x, data=dat, family=binomial))

R Ausgang:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

SAS-Code:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

SAS-Ausgabe (bearbeitet / abgekürzt):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

Eigentlich habe ich dies zuerst fürlogistische Regressionsmodellemitgemischten Effektenin PROC GLIMMIX bemerkt und später festgestellt, dass GLIMMIX dies auch mit logistischer "Vanille" -Rückführung tut. $^1$

Ich verstehe, dass in dem unten gezeigten Beispiel mit 900 Beobachtungen die Unterscheidung hier wahrscheinlich keinen praktischen Unterschied macht. Das ist nicht wirklich mein Punkt. Dies sind nur Daten, die ich schnell erfunden habe und 900 gewählt habe, weil es eine schöne Zahl ist. Allerdings wundere ich mich ein wenig über die praktischen Unterschiede bei kleinen Stichprobengrößen, z.B. <30. $^2$ $n$

r logistic mathematical-statistics sas degrees-of-freedom Jake Westfall
quelle

PROC LOGISTIC

z

$z$

1

SPSS scheint logistische Mixed-Effects-Modelle auf die gleiche Weise zu testen :(

Richard Border

6

Gibt es tatsächlich eine statistische Theorie, die zeigt, dass z bei logistischer Regression und / oder anderen verallgemeinerten linearen Modellen tatsächlich bei der Verteilung folgt?

Soweit mir bekannt ist, gibt es keine solche Theorie. Ich sehe regelmäßig handgewellte Argumente und gelegentlich Simulationsexperimente, um einen solchen Ansatz für eine bestimmte GLM-Familie oder eine andere zu unterstützen. Die Simulationen überzeugen mehr als die handgewellten Argumente.

Wenn es eine solche Theorie nicht gibt, gibt es dann zumindest Veröffentlichungen, die belegen, dass die Annahme einer solchen Verteilung genauso gut oder sogar besser funktioniert als die Annahme einer Normalverteilung?

Nicht, dass ich mich erinnern könnte, aber das sagt nicht viel.

Meine eigenen (begrenzten) Simulationen mit kleinen Stichproben legen nahe, dass die Annahme einer t-Verteilung im logistischen Fall wesentlich schlechter sein kann als die Annahme einer normalen:

Bildbeschreibung hier eingeben

Hier sind zum Beispiel die Ergebnisse (als QQ-Diagramme) von 10000 Simulationen der Wald-Statistik für eine gewöhnliche logistische Regression (dh feste Effekte, nicht gemischt) bei 15 x-Beobachtungen mit gleichem Abstand, bei denen die Populationsparameter beide Null waren. Die rote Linie ist die y = x-Linie. Wie Sie sehen, ist die Norm in jedem Fall eine ziemlich gute Annäherung über einen guten Bereich im mittleren bis etwa fünften und 95. Perzentil (1,6 bis 1,7), und dann außerhalb dessen ist die tatsächliche Verteilung der Teststatistik wesentlich leichter als der normale Schwanz.

Für den logistischen Fall würde ich sagen, dass ein Argument für die Verwendung des t- anstelle des z- auf dieser Basis unwahrscheinlich ist, da Simulationen wie diese darauf hindeuten, dass die Ergebnisse möglicherweise eher auf dem helleren Schwanz liegen Seite der normalen, anstatt der schwereren Schwanz.

[Ich empfehle jedoch, dass Sie meinen Simulationen nicht weiter vertrauen als als Warnung, dass Sie sich hüten sollten. Versuchen Sie es mit einigen Ihrer eigenen, möglicherweise für Ihre eigenen typischen Situationen und Modelle typischen Situationen (natürlich müssen Sie simulieren) der Fall, in dem eine Null wahr ist, um zu sehen, welche Verteilung unter der Null verwendet werden soll). Es würde mich interessieren zu hören, wie sie für Sie herauskommen.]

Glen_b - Setzen Sie Monica wieder ein
quelle

1

t

$t$

4

Hier sind einige zusätzliche Simulationen, um das, was Glen_b bereits vorgestellt hat, ein wenig zu erweitern.

$[-1,1]$ $N=10,20,40,80$ $p=0.5,0.731,0.881,0.952$

$z$ $t$ $df=N-2$ $z=0$ $p$ $=1$ QQsim

$p$ $t$ $p$ $p$ HistSim

$t$

Jake Westfall
quelle

3

Gute Arbeit für euch beide. Bill Gould hat dies in http://www.citeulike.org/user/harrelfe/article/13264166 untersucht und in einem binären Standardmodell mit festen Effekten die gleichen Schlussfolgerungen gezogen.

$t$

Frank Harrell
quelle

Testen von logistischen Regressionskoeffizienten unter Verwendung von Freiheitsgraden

Antworten: