Warum vergrößerte die Einführung eines zufälligen Steigungseffekts die SE der Steigung?

9

Ich versuche, die Auswirkung des Jahres auf die Variable logInd für eine bestimmte Gruppe von Personen zu analysieren (ich habe 3 Gruppen). Das einfachste Modell:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

Wir können sehen, dass die Gruppe 1 deutlich zurückgeht, die Gruppen 2 und 3 zunehmen, aber nicht signifikant.

Es ist klar, dass das Individuum ein zufälliger Effekt sein sollte, daher führe ich für jedes Individuum einen zufälligen Abfangeffekt ein:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

Es hatte einen erwarteten Effekt - die SE der Steigungen (Koeffizienten Gruppe 1-3: Jahr) sind jetzt niedriger und die verbleibende SE ist ebenfalls niedriger.

Die Individuen unterscheiden sich auch in der Steigung, daher habe ich auch den zufälligen Steigungseffekt eingeführt:

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

Aber jetzt, entgegen der Erwartung, ist die SE der Steigungen (Koeffizienten Gruppe 1-3: Jahr) jetzt viel höher, sogar höher als ohne zufälligen Effekt!

Wie ist das möglich? Ich würde erwarten, dass der zufällige Effekt die ungeklärte Variabilität "frisst" und die "Sicherheit" der Schätzung erhöht!

Die verbleibende SE verhält sich jedoch wie erwartet - sie ist niedriger als im Zufallsschnittmodell.

Hier sind die Daten bei Bedarf.

Bearbeiten

Jetzt wurde mir eine erstaunliche Tatsache klar. Wenn ich die lineare Regression für jedes Individuum separat durchführe und dann ANOVA auf den resultierenden Steigungen ausführe, erhalte ich genau das gleiche Ergebnis wie das Zufallssteigungsmodell! Würdest du wissen warum?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

Hier sind die Daten bei Bedarf.

Neugierig
quelle
Sie benötigen einen festen Effekt für ein Jahr, wenn Sie einen festen Effekt für ein Jahr: Gruppeninteraktion haben möchten. Im Allgemeinen können Sie einen Interaktionsbegriff nicht einschließen, ohne auch die Haupteffekte einzubeziehen. Glauben Sie wirklich, dass der Jahreseffekt keine feste Komponente hat? Und wenn ja, wie könnte es ein festes Jahr geben: Gruppeninteraktion?
John
Und warum kein fester Abschnitt? Sie können sowohl fest als auch zufällig haben.
John
@ John, dieses Modell ist vollständig gültig. Dies ist nur ein Problem der gewünschten Codierung der kategorialen Variablen. Auf diese Weise ist der Achsenabschnitt der Gruppe und die Steigung innerhalb der Gruppe . Wenn der Haupteffekt des Jahres und der Achsenabschnitt berücksichtigt werden, wären die Schätzungen die Unterschiede des Achsenabschnitts von Gruppe und Gruppe 1 und ähnlich wie bei Steigungen. GroupiiGroupi:Yearii
Aniko
@ John, das ist nicht zum Thema meiner Frage, aber glauben Sie mir, das ist in Ordnung, ich habe viele Experimente damit gemacht. Mein erstes lm-Modell ist völlig äquivalent zu logInd ~ Year*Group, nur die Koeffizienten haben unterschiedliche Formen, sonst nichts. Hängt von Ihrem Geschmack und der Form der Koeffizienten ab, mehr nicht. Es gibt keinen Ausschluss von "Jahr Haupteffekt" in meinem ersten Modell, während Sie schreiben ... logInd ~ Year*Groupmacht genau das gleiche, der YearKoeffizient ist dann nicht der Haupteffekt, sondern die Gruppe 1: Jahr.
Neugierig
OK, ordentlich, hatte nicht sowohl den 0-Achsenabschnitt als auch die Gruppe als kategorisch angesehen.
John

Antworten:

11

Ich denke, das Problem liegt in Ihren Erwartungen :) Beachten Sie, dass sich der Standardfehler der Abschnitte erhöht hat , wenn Sie für jede Person einen zufälligen Abschnitt hinzugefügt haben . Da jeder Einzelne seinen eigenen Abschnitt haben kann, ist der Gruppendurchschnitt weniger sicher. Dasselbe geschah mit der zufälligen Steigung: Sie schätzen nicht mehr eine gemeinsame Steigung (innerhalb der Gruppe), sondern den Durchschnitt variierender Steigungen.

EDIT: Warum gibt ein besseres Modell keine genauere Schätzung?

Denken wir umgekehrt darüber nach: Warum unterschätzt das ursprüngliche Modell den Standardfehler? Es setzt die Unabhängigkeit von Beobachtungen voraus, die nicht unabhängig sind. Das zweite Modell lockert diese Annahme (auf eine Weise, die die Abschnitte beeinflusst), und das dritte lockert sie weiter.

EDIT 2: Beziehung zu vielen patientenspezifischen Modellen

Ihre Beobachtung ist eine bekannte Eigenschaft (und wenn Sie nur zwei Jahre Zeit hätten, würde das Zufallseffektmodell einem gepaarten t-Test entsprechen). Ich glaube nicht, dass ich einen echten Beweis schaffen kann, aber vielleicht macht das Ausschreiben der beiden Modelle die Beziehung klarer. Ignorieren wir die Gruppierungsvariable, da dies die Notation nur erschweren würde. Ich werde griechische Buchstaben für zufällige Effekte und lateinische Buchstaben für feste Effekte verwenden.

Das Zufallseffektmodell ist ( - Subjekt, - Replik innerhalb des Subjekts): wobei und .ij

Yij=a+αi+(b+βi)xij+ϵij,
(αi,βi)N(0,Σ)ϵijN(0,σ2)

Wenn Sie für jedes Thema separate Modelle , ist wobei .ϵ i jN ( 0 , σ 2 i )

Yij=ai+bixij+ϵij,
ϵijN(0,σi2)

[Hinweis: Das Folgende ist wirklich nur Handwinken:]

Sie können mit einer Menge von Ähnlichkeiten zwischen diesen beiden Modellen sehen entspricht und zu . Der Durchschnitt von entspricht , da die Zufallseffekte im Durchschnitt 0 sind. Die uneingeschränkte Korrelation von zufälligem Schnittpunkt und Steigung führt dazu, dass die Modelle nur separat angepasst werden können. Ich bin nicht sicher, wie die einzelne Annahme mit der fachspezifischen , aber ich würde annehmen, dass den Unterschied . a + α i b i b + β i b i b σ σ i α iaia+αibib+βibibσσiαi

Aniko
quelle
Danke Aniko. Sie haben Recht, meine Berechnungen bestätigen dies, aber ich würde gerne sehen, warum ... Es scheint kontraintuitiv. Ich habe die Modelle verbessert - durch die Einführung zufälliger Effekte habe ich die Fehlerstruktur besser beschrieben. Restfehler bestätigt es - ist immer niedriger. Mit diesen besseren, präziseren Modellen würde ich eine genauere Steigung erwarten ... Ich weiß, dass ich irgendwo falsch liege, bitte helfen Sie mir, es zu sehen.
Neugierig
Danke Aniko, das ist eine interessante Sichtweise! Ich interessiere mich nur für Steigungen (Gruppe *: Jahr), nicht für das Abfangen hier. Mein erster Schritt zur Einführung eines zufälligen Itcept-Effekts lockerte diese Unabhängigkeitsannahme und führte zur unteren SE (der Steigung) und dann zum nächsten Schritt war wahrscheinlich zu viel (??) und tat das Gegenteil (noch schlimmer SE ..) .. vielleicht muss ich darüber nachdenken, danke.
Neugierig
Jetzt wundere ich mich auch über sehr interessante Fakten - siehe meine Bearbeitung. Würdest du wissen warum das so ist?
Neugierig
Ich glaube nicht, dass die Annahme der Unabhängigkeit zu sehr gelockert wurde! Es war anfangs falsch.
Aniko
3
Tomas, ein "präzises" Modell bedeutet nicht, dass die Schätzungen genauer sind. Nehmen Sie als extremes Beispiel ein beliebiges datenfreies Modell, z. B. eines, das vorhersagt, dass alle Antworten Null sind. Dieses Modell ist in seiner Schätzung von Null absolut sicher . Es ist daher so präzise wie möglich - aber wahrscheinlich auch so falsch wie möglich. Wenn Sie einem Modell mehr Spielraum für die Anpassung von Parametern geben, bedeutet dies normalerweise, dass diese Parameter weniger genau und nicht mehr angepasst werden. Ein besseres Modell weist häufig größere Standardfehler auf, da es die Unsicherheit quantifizieren kann, die nicht von einem schlechteren Modell erfasst wird.
whuber