Behoben gegen zufällige Effekte

10

Ich habe vor kurzem angefangen, etwas über verallgemeinerte lineare gemischte Modelle zu lernen, und habe R verwendet, um herauszufinden, welchen Unterschied es macht, die Gruppenmitgliedschaft entweder als festen oder als zufälligen Effekt zu behandeln. Insbesondere betrachte ich den hier diskutierten Beispieldatensatz:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Wie in diesem Tutorial beschrieben, ist der Effekt von Doctor ID spürbar und ich hatte erwartet, dass das gemischte Modell mit einem zufälligen Achsenabschnitt bessere Ergebnisse liefert. Ein Vergleich der AIC-Werte für die beiden Methoden legt jedoch nahe, dass dieses Modell schlechter ist:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Meine Fragen sind also:

(1) Ist es angebracht, die von den beiden Funktionen bereitgestellten AIC-Werte zu vergleichen? Wenn ja, warum ist das Modell mit festem Effekt besser?

(2) Wie lässt sich am besten feststellen, ob feste oder zufällige Effekte wichtiger sind (dh um zu quantifizieren, dass die Variabilität aufgrund des Arztes wichtiger ist als die Merkmale des Patienten?

Gast333
quelle

Antworten:

7

Modelle mit festen Effekten und Modelle mit zufälligen Effekten stellen unterschiedliche Fragen an die Daten. Das Angeben eines Satzes von Dummy-Variablen auf Gruppenebene steuert im Wesentlichen alle unbeobachteten Heterogenitäten auf Gruppenebene in der durchschnittlichen Antwort, sodass Ihre Schätzungen nur die Variabilität innerhalb von Einheiten widerspiegeln. Modelle mit zufälligen Effekten beginnen mit der Annahme, dass es eine Metapopulation von (unabhängig von dem Effekt) gibt und dass Ihre Stichprobe viele Ziehungen aus dieser Population widerspiegelt. Anstatt Ihre Ergebnisse in heterogenen Abschnitten zu verankern, werden Ihre Daten verwendet, um die Parameter der (normalerweise normalen) Verteilung zu erläutern, aus der Ihre Daten angeblich stammen.

Es wird oft gesagt, dass Modelle mit festen Effekten gut geeignet sind, um Rückschlüsse auf Ihre Daten zu ziehen, und dass Modelle mit zufälligen Effekten gut geeignet sind, um Rückschlüsse auf eine größere Population zu ziehen, aus der Ihre Daten eine Zufallsstichprobe sind.

t

yit=αi+βTit+ϵit

Sie können Ihren Fehlerbegriff in die Komponente Ihres Fehlerbegriffs aufteilen, die zeitlich variiert und nicht:

yit=αi+βTit+ei+uit

Subtrahieren Sie nun den gruppenweisen Mittelwert von beiden Seiten:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

t

tei

In diesem Beispiel ist die Zeit die Gruppierungsvariable. In Ihrem Beispiel ist es DID. (dh: es verallgemeinert)

generic_user
quelle
1

1) Es ist angebracht, den Vergleich durchzuführen, nur nicht mit diesen beiden Modellen. Sie möchten vergleichen:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

mit

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

und du kannst das mit einer anova machen:

anova(GLM, GLMM)

(Sie sind sich nicht sicher, ob dies mit den Ergebnissen glmund funktioniert glmer, da es sich möglicherweise um unterschiedliche R-Objekte handelt. Möglicherweise müssen Sie zwei Funktionen verwenden, die vergleichbare Rückgabeobjekte haben, z. B. lmeund gls, oder die Anova selbst ausführen.)

χ02χ12

Für mich war das beste Buch zum Verständnis des Prozesses der Erstellung verschachtelter Modelle und des Hypothesentests West, Welsh und Galecki (2007) Linear Mixed Models: Ein praktischer Leitfaden . Sie gehen alles Schritt für Schritt durch.

2) Wenn Sie mehrere Beobachtungen pro Patient haben, würden Sie auch einen zufälligen Effekt für den Patienten hinzufügen. Um dann die relative Bedeutung von Geduld gegenüber Arzt zu testen, können Sie die prädiktiven Wirkungen des Patienten gegenüber den prädiktiven Wirkungen für den Arzt untersuchen. Die Begriffe für zufällige Effekte für jeden einzelnen quantifizieren das Ausmaß der Varianz zwischen Patienten und zwischen Ärzten, wenn dies eine Frage ist, die Sie interessiert.

(Jemand korrigiert mich bitte, wenn ich falsch liege!)

Christopher Poile
quelle
Ich bin sicher , dass es nicht sinnvoll ist , zu haben DIDals sowohl eine feste Wirkung, und einen zufälligen Abschnitt in dem zweiten Modell. Darüber hinaus bedeutet es als fester Effekt im 1. Modell, dass die Wahl b / t diese 2 darüber entscheiden würde, wie über den Effekt nachgedacht werden soll DID, und nicht darüber, ob er einbezogen werden muss. In einem anderen Sinne stelle ich fest, dass Sie einen Gegenstand haben (2); Wolltest du irgendwo einen Gegenstand (1) haben?
Gung - Reinstate Monica
Du hast absolut recht; Ich ging von der ursprünglichen glm-Formel des OP aus, die DID eigentlich nicht als festen Effekt hätte haben sollen. Jetzt haben Sie die Wahl, ob die Behandlung von DID als zufälliger Effekt dem Modell einen Wert hinzufügt.
Christopher Poile
1

Die Modelle sind sehr unterschiedlich. Das glm-Modell befasst sich mit der allgemeinen Verringerung der Abweichung (von einem Nullmodell), wenn alle DoctorID-Effekte geschätzt werden und Parameterschätzungen zugewiesen werden. Sie bemerken natürlich, dass Age, Married und IL6 alle die gleichen Wald-Statistiken in beiden Modellen haben, oder? Mein Verständnis (kein hoch verfeinertes, das ich zugeben werde) ist, dass ein gemischtes Modell die DoctorIDs als störende Faktoren oder Schichten behandelt, nämlich "Effekte", von denen nicht angenommen werden kann, dass sie aus einer bestimmten Elternverteilung stammen. Ich sehe keinen Grund zu der Annahme, dass die Verwendung eines gemischten Modells Ihr Verständnis des "Doktoreffekts" verbessern würde, ganz im Gegenteil.

Wenn Sie sich für die Auswirkungen von Alter, Verheiratet oder IL6 interessieren würden, hätte ich mir vorgestellt, dass Sie AIC nicht zwischen diesen beiden Modellen vergleichen würden, sondern Unterschiede zwischen AIC mit der Entfernung von interessierenden Kovariaten innerhalb derselben Modellierungsstruktur.

DWin
quelle