Warum lösen Modelle mit gemischten Effekten die Abhängigkeit auf?

14

Angenommen, wir sind daran interessiert, wie sich die Noten der Schülerprüfungen auf die Anzahl der Stunden auswirken, die diese Schüler studieren. Um diese Beziehung zu untersuchen, könnten wir die folgende lineare Regression durchführen:

exam.gradesi=a+β1×hours.studiedi+ei

Wenn wir jedoch Schüler aus mehreren verschiedenen Schulen befragen, können wir erwarten, dass sich Schüler derselben Schule ähnlicher sind als Schüler aus verschiedenen Schulen. Um dieses Abhängigkeitsproblem zu lösen, wird in vielen Lehrbüchern / im Internet empfohlen, gemischte Effekte zu erzielen und die Schule als zufälliger Effekt zu betreten. Das Modell würde also : exam.grades i = a + β 1 × hours.studied i + school j + e i

exam.gradesi=a+β1×hours.studiedi+schoolj+ei
Aber warum löst dies das Abhängigkeitsproblem, das in der linearen Regression vorhanden war?

Bitte antworten Sie, als würden Sie mit einem 12-Jährigen sprechen

Luciano
quelle
Ob es das Abhängigkeitsproblem "löst", ist kontextspezifisch. Aber Sie können wahrscheinlich sehen, dass das erweiterte Modell nun einen Begriff hat, der zumindest teilweise einen schulbezogenen Effekt erklären kann.
image_doctor

Antworten:

23

Das Einbeziehen zufälliger Terme in das Modell ist eine Möglichkeit, eine Kovarianzstruktur zwischen den Noten zu induzieren. Der Zufallsfaktor für die Schule induziert eine Kovarianz ungleich Null zwischen verschiedenen Schülern derselben Schule, während er wenn die Schule unterschiedlich ist.0

Schreiben wir Ihr Modell als wobei s die Schule indiziert und i die Schüler indiziert (in jeder Schule). Die Begriffe Schule s sind unabhängige Zufallsvariablen, die in einem N ( 0 , τ ) gezeichnet sind . Die e s , i sind unabhängige Zufallsvariablen, die in a N ( 0 , σ gezeichnet sind

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,i .N(0,σ2)

Dieser Vektor hat den erwarteten Wert , die durch die Anzahl der Arbeitsstunden bestimmt.

[α+hourss,iβ]s,i

Die Kovarianz zwischen und Y s ' , i ' ist 0 , wennYs,iYs,i0 , was bedeutet, dass die Abweichung der Noten von den erwarteten Werten unabhängig ist, wenn die Schüler nicht in derselben Schule sind.ss

Die Kovarianz zwischen und Y s , i ' ist τ, wenn i i ' ist , und die Varianz von Y s , i istYs,iYs,iτiiYs,iτ+σ2

Beispiel und simulierte Daten

σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

mixed model

schoolsα+hoursβ

Die Varianzmatrix für dieses Beispiel

schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].
Elvis
quelle
1
Elvis: thats probably a great answer for people more versed in statistics than I. However I can extract little meaning from it. Could you edit your response in a way that a 12 year old might be able to understand?
luciano
1
A... 12 years old?! Wow! I will add some simulations, if this can help.
Elvis
5
Done. Hope this helps. If not, please be more specific about what you don’t get. Note that a 12 yo would not understand the question either... you can’t ask for an answer simpler than the question.
Elvis