Wird angenommen, dass Gruppeneffekte in einem Modell mit gemischten Effekten aus einer Normalverteilung ausgewählt wurden?

8

Angenommen, wir sind daran interessiert, wie sich die Anzahl der Stunden, die diese Schüler studieren, auf die Noten der Schülerprüfungen auswirkt. Wir befragen Schüler aus verschiedenen Schulen. Wir führen das folgende Modell mit gemischten Effekten aus:

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

Habe ich Recht, wenn ich sage, dass in diesem Modell angenommen wird, dass jede Schule aus einer größeren Anzahl von Schulen ausgewählt wurde und dass die Wirkung der Schule normal verteilt ist? Können wir daher alle "üblichen" Normalverteilungsverfahren für den Gruppeneffekt der Schule durchführen? Können wir sagen, dass 68% der Schulen innerhalb einer Standardabweichung vom mittleren Gruppeneffekt der Schule liegen? Und können wir ein 95% -Konfidenzintervall für den mittleren Gesamteffekt der Schule berechnen?

Habe ich auch Recht, wenn ich sage, dass eine lineare Regression mit festem Schuleffekt diese Normalverteilungsstatistiken nicht berechnen kann, weil sie eine Referenzgruppe und Dummy-Variablen verwenden?

luciano
quelle

Antworten:

7

Sie sagen zu Recht, dass in Standardmodellen mit linearen Mischeffekten angenommen wird , dass die Zufallseffekte normal verteilt sind. So , wenn diese Annahme hält (zumindest ungefähr), können wir nutzen , was wissen wir über Normalverteilungen zu helfen , die Verteilung der Zufallswirkungen, wie zum Beispiel 95% der Zufallseffekte innerhalb von zwei Standardabweichungen von 0 sein sollte (da zufällig Effekte sind um 0) zentriert.

Trotzdem ist es wichtig, diese Annahmen zu überprüfen, und es ist nicht immer so einfach! Wenn Sie über viele Daten zu jedem Cluster verfügen, können Sie eine Schichtanalyse durchführen und die Konfidenzintervalle für jeden Cluster darstellen. Dies kann immer noch etwas schwierig sein; Angenommen, Sie haben einen extremen Ausreißer, dh ein enges Konfidenzintervall, das mehrere Standardabweichungen von 0 entfernt ist. Liegt das daran, dass dieser zufällige Effekt wirklich groß ist und wir uns dessen sehr sicher sind? Oder liegt das daran, dass wir nicht viele Daten über diesen zufälligen Effekt haben und die Varianz aufgrund der geringen Stichprobengröße unterschätzt haben?

Was den Unterschied zwischen einfachen linearen Regressions- und Mischeffektmodellen betrifft, so lautet die Antwort, dass das Mischeffektmodell erheblich komplizierter ist. Es wird angenommen, dass die zufälligen Effekte alle aus derselben (normalerweise normalen) Verteilung erzeugt wurden. Daher wird die Schätzung eines zufälligen Effekts tatsächlich in Richtung 0 gezogen (denken Sie daran, dass zufällige Effekte auf 0 zentriert sind), verglichen mit der Anpassung eines einfachen linearen Regressionsmodells mit allen festen Effekten.

Ein weiterer Unterschied besteht darin, dass die zufälligen Effekte auf den Mittelwert 0 festgelegt sind, was eine vollständige Identifizierbarkeit des Modells ermöglicht: Wenn Sie versuchen würden, den Haupteffekt UND alle zufälligen Effekte in ein einfaches lineares Modell einzupassen, wäre Ihr Modell nicht identifizierbar. Dies liegt daran, dass das Addieren von 1 zum Haupteffekt und das Subtrahieren von 1 von den "zufälligen" Effekten (Anführungszeichen, die verwendet werden, weil Sie sie als feste Effekte anpassen würden) zu genau denselben vorhergesagten Werten führen würde. Dieses Problem ist jedoch nicht so wichtig: Man könnte den Haupteffekt leicht aus dem Modell ausschließen, und wenn wir dann daran interessiert wären, den Haupteffekt zu untersuchen, würden wir einfach den Durchschnitt aller "zufälligen" Effekte nehmen. Wie oben erwähnt, wären die geschätzten "zufälligen" Effekte jedoch viel lauter als wenn sie durch ein Modell mit gemischten Effekten angepasst worden wären: auf die Informationen dieses Clusters, anstatt auch die Informationen über die Verteilung der Cluster-Effekte auszuleihen.

Cliff AB
quelle