Angenommen, wir sind daran interessiert, wie sich die Noten der Schülerprüfungen auf die Anzahl der Stunden auswirken, die diese Schüler studieren. Um diese Beziehung zu untersuchen, könnten wir die folgende lineare Regression durchführen:
Wenn wir jedoch Schüler aus mehreren verschiedenen Schulen befragen, können wir erwarten, dass sich Schüler derselben Schule ähnlicher sind als Schüler aus verschiedenen Schulen. Um dieses Abhängigkeitsproblem zu lösen, wird in vielen Lehrbüchern / im Internet empfohlen, gemischte Effekte zu erzielen und die Schule als zufälliger Effekt zu betreten. Das Modell würde also : exam.grades i = a + β 1 × hours.studied i + school j + e i
Aber warum löst dies das Abhängigkeitsproblem, das in der linearen Regression vorhanden war?
Bitte antworten Sie, als würden Sie mit einem 12-Jährigen sprechen
Antworten:
Das Einbeziehen zufälliger Terme in das Modell ist eine Möglichkeit, eine Kovarianzstruktur zwischen den Noten zu induzieren. Der Zufallsfaktor für die Schule induziert eine Kovarianz ungleich Null zwischen verschiedenen Schülern derselben Schule, während er wenn die Schule unterschiedlich ist.0
Schreiben wir Ihr Modell als wobei s die Schule indiziert und i die Schüler indiziert (in jeder Schule). Die Begriffe Schule s sind unabhängige Zufallsvariablen, die in einem N ( 0 , τ ) gezeichnet sind . Die e s , i sind unabhängige Zufallsvariablen, die in a N ( 0 , σ gezeichnet sind
Dieser Vektor hat den erwarteten Wert , die durch die Anzahl der Arbeitsstunden bestimmt.
Die Kovarianz zwischen und Y s ' , i ' ist 0 , wennYs,i Ys′,i′ 0 , was bedeutet, dass die Abweichung der Noten von den erwarteten Werten unabhängig ist, wenn die Schüler nicht in derselben Schule sind.s≠s′
Die Kovarianz zwischen und Y s , i ' ist τ, wenn i ≠ i ' ist , und die Varianz von Y s , i istYs,i Ys,i′ τ i≠i′ Ys,i τ+σ2
Beispiel und simulierte Daten
Die Varianzmatrix für dieses Beispiel
quelle