Warum lösen Modelle mit gemischten Effekten die Abhängigkeit auf?

Angenommen, wir sind daran interessiert, wie sich die Noten der Schülerprüfungen auf die Anzahl der Stunden auswirken, die diese Schüler studieren. Um diese Beziehung zu untersuchen, könnten wir die folgende lineare Regression durchführen:

{exam.grades}_{i} = a + β_{1} \times {hours.studied}_{i} + e_{i}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i$

Wenn wir jedoch Schüler aus mehreren verschiedenen Schulen befragen, können wir erwarten, dass sich Schüler derselben Schule ähnlicher sind als Schüler aus verschiedenen Schulen. Um dieses Abhängigkeitsproblem zu lösen, wird in vielen Lehrbüchern / im Internet empfohlen, gemischte Effekte zu erzielen und die Schule als zufälliger Effekt zu betreten. Das Modell würde also :

{exam.grades}_{i} = a + β_{1} \times {hours.studied}_{i} + {school}_{j} + e_{i}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i$ Aber warum löst dies das Abhängigkeitsproblem, das in der linearen Regression vorhanden war?

Bitte antworten Sie, als würden Sie mit einem 12-Jährigen sprechen

regression mixed-model random-effects-model non-independent Luciano
quelle

Ob es das Abhängigkeitsproblem "löst", ist kontextspezifisch. Aber Sie können wahrscheinlich sehen, dass das erweiterte Modell nun einen Begriff hat, der zumindest teilweise einen schulbezogenen Effekt erklären kann.

image_doctor

Das Einbeziehen zufälliger Terme in das Modell ist eine Möglichkeit, eine Kovarianzstruktur zwischen den Noten zu induzieren. Der Zufallsfaktor für die Schule induziert eine Kovarianz ungleich Null zwischen verschiedenen Schülern derselben Schule, während er wenn die Schule unterschiedlich ist. $0$

Schreiben wir Ihr Modell als wobei die Schule indiziert und die Schüler indiziert (in jeder Schule). Die Begriffe sind unabhängige Zufallsvariablen, die in einem gezeichnet sind . Die sind unabhängige Zufallsvariablen, die in a gezeichnet sind

Y_{s, i} = α + {hours}_{s, i} β + {school}_{s} + e_{s, i}

$Y_{s,i} = \alpha + \text{hours}_{s,i} \beta + \text{school}_s + e_{s, i}$

s

$s$

i

$i$

{school}_{s}

$\text{school}_s$

N (0, τ)

$\mathcal N(0, \tau)$

e_{s, i}

$e_{s, i}$

N (0, σ^{2})

$\mathcal N(0, \sigma^2)$

Dieser Vektor hat den erwarteten Wert , die durch die Anzahl der Arbeitsstunden bestimmt.

{[α + {hours}_{s, i} β]}_{s, i}

$\left[ \alpha + \text{hours}_{s,i} \beta \right]_{s,i}$

Die Kovarianz zwischen und ist , wenn $Y_{s,i}$ $Y_{s',i'}$ $0$ , was bedeutet, dass die Abweichung der Noten von den erwarteten Werten unabhängig ist, wenn die Schüler nicht in derselben Schule sind. $s \ne s'$

Die Kovarianz zwischen und ist wenn , und die Varianz von ist $Y_{s,i}$ $Y_{s,i'}$ $\tau$ $i \ne i'$ $Y_{s,i}$ $\tau + \sigma^2$

Beispiel und simulierte Daten

$\sigma^2 = \tau = 1$

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

$\text{school}_s + e_{s, i}$

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

mixed model

$\text{school}_s$ $\alpha + \text{hours} \beta$

Die Varianzmatrix für dieses Beispiel

$\text{school}_s$ $e_{s,i}$

[\begin{matrix} A & 0 & 0 & 0 & 0 \\ 0 & A & 0 & 0 & 0 \\ 0 & 0 & A & 0 & 0 \\ 0 & 0 & 0 & A & 0 \\ 0 & 0 & 0 & 0 & A \end{matrix}]

$\left[\begin{matrix} A & 0 & 0 & 0 & 0 \\ 0 & A & 0 & 0 & 0 \\ 0 & 0 & A & 0 & 0 \\ 0 & 0 & 0 & A & 0 \\ 0 & 0 & 0 & 0 & A \end{matrix}\right]$

10 \times 10

$10\times 10$

A

$A$

A = [\begin{matrix} 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1 \\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1 \\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 \end{matrix}] .

$A = \left[\begin{matrix} 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1\\ 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1\\ 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1 & 1\\ 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1 & 1\\ 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1 & 1\\ 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1 & 1\\ 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1 & 1\\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1 & 1\\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 & 1\\ 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 2 \end{matrix}\right].$

Elvis
quelle

Elvis: thats probably a great answer for people more versed in statistics than I. However I can extract little meaning from it. Could you edit your response in a way that a 12 year old might be able to understand?

luciano

A... 12 years old?! Wow! I will add some simulations, if this can help.

Elvis

Done. Hope this helps. If not, please be more specific about what you don’t get. Note that a 12 yo would not understand the question either... you can’t ask for an answer simpler than the question.

Elvis

Warum lösen Modelle mit gemischten Effekten die Abhängigkeit auf?

Antworten: