Ich habe vor kurzem angefangen, etwas über verallgemeinerte lineare gemischte Modelle zu lernen, und habe R verwendet, um herauszufinden, welchen Unterschied es macht, die Gruppenmitgliedschaft entweder als festen oder als zufälligen Effekt zu behandeln. Insbesondere betrachte ich den hier diskutierten Beispieldatensatz:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Wie in diesem Tutorial beschrieben, ist der Effekt von Doctor ID spürbar und ich hatte erwartet, dass das gemischte Modell mit einem zufälligen Achsenabschnitt bessere Ergebnisse liefert. Ein Vergleich der AIC-Werte für die beiden Methoden legt jedoch nahe, dass dieses Modell schlechter ist:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Meine Fragen sind also:
(1) Ist es angebracht, die von den beiden Funktionen bereitgestellten AIC-Werte zu vergleichen? Wenn ja, warum ist das Modell mit festem Effekt besser?
(2) Wie lässt sich am besten feststellen, ob feste oder zufällige Effekte wichtiger sind (dh um zu quantifizieren, dass die Variabilität aufgrund des Arztes wichtiger ist als die Merkmale des Patienten?
quelle
DID
als sowohl eine feste Wirkung, und einen zufälligen Abschnitt in dem zweiten Modell. Darüber hinaus bedeutet es als fester Effekt im 1. Modell, dass die Wahl b / t diese 2 darüber entscheiden würde, wie über den Effekt nachgedacht werden sollDID
, und nicht darüber, ob er einbezogen werden muss. In einem anderen Sinne stelle ich fest, dass Sie einen Gegenstand haben (2); Wolltest du irgendwo einen Gegenstand (1) haben?Die Modelle sind sehr unterschiedlich. Das glm-Modell befasst sich mit der allgemeinen Verringerung der Abweichung (von einem Nullmodell), wenn alle DoctorID-Effekte geschätzt werden und Parameterschätzungen zugewiesen werden. Sie bemerken natürlich, dass Age, Married und IL6 alle die gleichen Wald-Statistiken in beiden Modellen haben, oder? Mein Verständnis (kein hoch verfeinertes, das ich zugeben werde) ist, dass ein gemischtes Modell die DoctorIDs als störende Faktoren oder Schichten behandelt, nämlich "Effekte", von denen nicht angenommen werden kann, dass sie aus einer bestimmten Elternverteilung stammen. Ich sehe keinen Grund zu der Annahme, dass die Verwendung eines gemischten Modells Ihr Verständnis des "Doktoreffekts" verbessern würde, ganz im Gegenteil.
Wenn Sie sich für die Auswirkungen von Alter, Verheiratet oder IL6 interessieren würden, hätte ich mir vorgestellt, dass Sie AIC nicht zwischen diesen beiden Modellen vergleichen würden, sondern Unterschiede zwischen AIC mit der Entfernung von interessierenden Kovariaten innerhalb derselben Modellierungsstruktur.
quelle