Wann sollte ich * nicht * zulassen, dass ein fester Effekt in einem Modell mit gemischten Effekten über die Ebenen eines zufälligen Effekts variiert?

15

Bei einer vorhergesagten Variablen (P), einem Zufallseffekt (R) und einem festen Effekt (F) könnte man zwei * Modelle mit gemischten Effekten ( lme4- Syntax) anpassen :

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Soweit ich weiß, ist das zweite Modell dasjenige, bei dem der festgelegte Effekt über die Ebenen des Zufallseffekts hinweg variiert.

In meiner Forschung verwende ich normalerweise Modelle mit gemischten Effekten, um Daten aus Experimenten zu analysieren, die an mehreren menschlichen Teilnehmern durchgeführt wurden. Ich modelliere Teilnehmer als Zufallseffekt und experimentelle Manipulationen als Fixeffekte. Ich denke, es ist von vornherein sinnvoll, das Ausmaß, in dem die festgelegten Effekte die Leistung des Experiments beeinflussen, je nach Teilnehmer variieren zu lassen. Es fällt mir jedoch schwer, mir Umstände vorzustellen, unter denen ich nicht zulassen sollte, dass die festgelegten Effekte je nach Ebene eines zufälligen Effekts variieren. Meine Frage lautet daher:

Wann sollte man nicht zulassen, dass ein fester Effekt über die Ebenen eines zufälligen Effekts hinweg variiert?

Mike Lawrence
quelle
Ich verstehe die lme4-Syntax immer noch nicht vollständig, daher bin ich gespannt auf die Antwort. Aber ich habe die Vermutung, dass der folgende Unterschied damit zusammenhängt: P ist die Zeit, die ein Schüler mit Hausaufgaben verbringt, R ist eine Behandlung auf Klassenebene und F ist der Schüler. (Wir sollten auch einen zufälligen Effekt für die Klasse selbst haben.) Wenn alle Schüler zu unterschiedlichen Zeiten allen Behandlungen R unterzogen werden, sind die Niveaus von F über die Klassen hinweg vergleichbar. Wenn wir eine ganze Schule auf einmal messen, haben wir verschiedene Schüler in jeder Klasse, sodass die F-Stufen in verschiedenen Klassen nichts miteinander zu tun haben.
Thomas Levine

Antworten:

11

Ich bin kein Experte für Mixed-Effect-Modellierung, aber die Frage ist viel einfacher zu beantworten, wenn sie im Kontext der hierarchischen Regressionsmodellierung umformuliert wird. Unsere Beobachtungen haben also zwei Indizes und F i j, wobei der Index i die Klasse und j die Mitglieder der Klasse darstellt. Die hierarchischen Modelle lassen uns die lineare Regression anpassen, bei der die Koeffizienten über Klassen variieren:PijFijij

Yij=β0i+β1iFij

Dies ist unsere Regression der ersten Ebene. Die Regression der zweiten Ebene wird mit den ersten Regressionskoeffizienten durchgeführt:

β0i=γ00+u0iβ1i=γ01+u1i

Wenn wir dies in der Regression der ersten Ebene einsetzen, erhalten wir

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Hier sind feste Effekte und u zufällige Effekte. Gemischte Modellschätzungen γ und Varianzen von u .γuγu

Das Modell, das ich aufgeschrieben habe, entspricht der lmerSyntax

P ~ (1+F|R) + F

Wenn wir nun ohne den zufälligen Term setzen, erhalten wirβ1i=γ01

Yij=γ0+u0i+γ01Fij

was der lmerSyntax entspricht

P ~ (1|R) + F

Es stellt sich also die Frage, wann wir Fehlerbegriffe von der Regression der zweiten Ebene ausschließen können. Die kanonische Antwort lautet: Wenn wir sicher sind, dass die Regressoren (hier haben wir keine, aber wir können sie einbeziehen, sie sind natürlich innerhalb von Klassen konstant) in der Regression der zweiten Ebene die Varianz der Koeffizienten über Klassen hinweg vollständig erklären.

Wenn also in diesem speziellen Fall der Koeffizient von nicht variiert oder alternativ die Varianz von u 1 i sehr klein ist, sollten wir uns vorstellen, dass wir mit dem ersten Modell wahrscheinlich besser zurechtkommen.Fiju1i

Hinweis . Ich habe nur eine algebraische Erklärung gegeben, denke aber, dass es viel einfacher ist, sich ein bestimmtes Anwendungsbeispiel vorzustellen.

mpiktas
quelle
Sollte die erste Gleichung auch einen Fehlerterm haben: Yij=β0i+β1iFij+eij
Nikita Samoylov
ja, aber ich habe es aus Gründen der Klarheit weggelassen, denke ich.
mpiktas
9

Sie können sich einen "festen Effekt" als "zufälligen Effekt" mit einer Varianzkomponente von Null vorstellen.

Eine einfache Antwort auf die Frage, warum Sie feste Effekte nicht variieren lassen würden, ist ein unzureichender Beweis für eine "ausreichend große" Varianzkomponente. Der Nachweis sollte sowohl aus den Vorinformationen als auch aus den Daten stammen. Dies steht im Einklang mit dem grundlegenden "Occam-Rasiermesser" -Prinzip: Machen Sie Ihr Modell nicht komplexer, als es sein muss.

Ich neige dazu, über lineare gemischte Modelle wie folgt zu denken, und schreibe eine multiple Regression wie folgt aus:

Y=Xβ+Zu+e

XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

Y.N(Xβ,ZD(θ)ZT+σ2ich)

Vergleichen Sie dies mit der OLS - Regression (die hat Z=0) und wir bekommen:

Y.N(Xβ,σ2ich)

Der "zufällige" Teil des Modells kann daher als eine Möglichkeit angesehen werden, vorherige Informationen über die Korrelationsstruktur der Rausch- oder Fehlerkomponente im Modell anzugeben . OLS geht grundsätzlich davon aus, dass ein Fehler aus dem festen Teil des Modells in einem Fall für die Vorhersage eines anderen Fehlers unbrauchbar ist, selbst wenn wir den festen Teil des Modells mit Sicherheit kannten. Das Hinzufügen eines zufälligen Effekts bedeutet im Grunde genommen, dass Sie der Meinung sind, dass einige Fehler bei der Vorhersage anderer Fehler hilfreich sind.

Wahrscheinlichkeitslogik
quelle
4

Dies ist eine ziemlich alte Frage mit einigen sehr guten Antworten, aber ich denke, sie kann von einer neuen Antwort profitieren, um eine pragmatischere Perspektive anzusprechen.

Wann sollte man nicht zulassen, dass ein fester Effekt über die Ebenen eines zufälligen Effekts hinweg variiert?

Ich werde nicht auf die Probleme eingehen, die bereits in den anderen Antworten beschrieben wurden, sondern auf das mittlerweile berühmte, obwohl ich eher "berüchtigtes" Papier von Barr et al. (2013) sagen würde, das oft nur als "Keep it maximal" bezeichnet wird.

Barr, DJ, Levy, R., Scheepers, C. und Tily, HJ, 2013. Random-Effects-Struktur für das Testen von Bestätigungshypothesen: Halten Sie es maximal. Journal of Memory and Language, 68 (3), S. 255-278.

In diesem Artikel argumentieren die Autoren, dass alle festen Effekte über die Ebenen der Gruppierungsfaktoren (zufällige Abschnitte) variieren dürfen. Ihre Argumentation ist sehr überzeugend - im Grunde genommen bedeutet dies, dass das Modell Einschränkungen unterliegt , wenn sie nicht variiert werden dürfen. Dies ist in den anderen Antworten gut beschrieben. Es gibt jedoch potenziell schwerwiegende Probleme mit diesem Ansatz, die von Bates el al (2015) beschrieben werden:

Bates, D., Kliegl, R., Vasishth, S. und Baayen, H., 2015. Sparsame gemischte Modelle. arXiv-Vorabdruck arXiv: 1506.04967

An dieser Stelle ist anzumerken, dass Bates der Hauptautor des lme4Pakets für die Anpassung gemischter Modelle in R ist, das wahrscheinlich das am häufigsten verwendete Paket für solche Modelle ist. Bates et al. Stellen fest, dass die Daten in vielen realen Anwendungen einfach keine maximale Zufallseffektstruktur unterstützen, da in jedem Cluster nicht genügend Beobachtungen für die relevanten Variablen vorliegen. Dies kann sich in Modellen manifestieren, die nicht konvergieren oder in den zufälligen Effekten singulär sind. Die große Anzahl von Fragen auf dieser Website zu solchen Modellen bestätigt dies. Sie stellen auch fest, dass Barr et al. Eine relativ einfache Simulation mit "gut erzogenen" Zufallseffekten als Grundlage für ihre Arbeit verwendeten. Stattdessen schlagen Bates et al den folgenden Ansatz vor:

Wir schlugen vor (1), PCA zu verwenden, um die Dimensionalität der Varianz-Kovarianz-Matrix der Zufallseffektstruktur zu bestimmen, (2) Korrelationsparameter zunächst auf Null zu beschränken, insbesondere wenn ein erster Versuch, ein maximales Modell anzupassen, nicht konvergiert. und (3) nicht signifikante Varianzkomponenten und ihre zugehörigen Korrelationsparameter aus dem Modell zu entfernen

In derselben Veröffentlichung stellen sie auch fest:

Wichtig ist, dass Konvergenzfehler nicht auf Defekte des Schätzalgorithmus zurückzuführen sind, sondern eine direkte Folge des Versuchs, ein Modell anzupassen, das zu komplex ist, um von den Daten ordnungsgemäß unterstützt zu werden.

Und:

Maximalmodelle sind zum Schutz vor antikonservativen Schlussfolgerungen nicht erforderlich. Dieser Schutz wird vollständig durch umfassende Modelle gewährleistet, die sich an realistischen Erwartungen hinsichtlich der Komplexität der Daten orientieren. In der Statistik ist Sparsamkeit wie anderswo in der Wissenschaft eine Tugend und kein Laster.

Bates et al. (2015)

Aus einer eher angewandten Perspektive sollte weiter überlegt werden, ob der Datenerzeugungsprozess, die biologische / physikalische / chemische Theorie, die den Daten zugrunde liegt, den Analytiker bei der Festlegung der Zufallseffektstruktur leiten sollte oder nicht.

Robert Long
quelle
"Oft, weil es nicht genügend Beobachtungen in jedem Cluster gibt", können Sie das näher erläutern? Ich dachte, die minimal erforderliche Anzahl pro Cluster ist 1? Dies ist sogar Ihre akzeptierte Antwort hier: stats.stackexchange.com/questions/388937/…
LuckyPal
@LuckyPal Die Frage, mit der Sie verknüpft sind, betrifft zufällige Abschnitte. In dieser Frage geht es um zufällige Steigungen. Wie schätzen Sie eine Steigung für eine Stichprobengröße von 1 ein?
Robert Long
Punkt genommen. Vielen Dank! +1 Aber wir können eine feste Steigung mit nur einer Beobachtung pro Cluster abschätzen, wenn es genügend Cluster gibt, oder? Das scheint ein bisschen komisch. Wenn aufgrund der Stichprobengröße Konvergenzprobleme mit einer zufälligen Steigung auftreten, kann die Schätzung der Steigung - ob zufällig oder nicht - im Allgemeinen fraglich sein.
LuckyPal
@LuckyPal Ja, die Schätzung einer festen Steigung gilt für alle Cluster, daher ist dies normalerweise kein Problem. Ich bin damit einverstanden, dass die Schätzung einer zufälligen Steigung mit kleinen Clustern zu Konvergenzproblemen führen kann, aber die Schätzung einer festen Steigung nicht beeinflussen sollte.
Robert Long