Rs lmer Spickzettel

160

In diesem Forum wird viel darüber diskutiert, wie verschiedene hierarchische Modelle richtig angegeben werden können lmer.

Ich dachte, es wäre großartig, alle Informationen an einem Ort zu haben. Ein paar Fragen zum Starten:

  1. So legen Sie mehrere Ebenen fest, in denen eine Gruppe in der anderen verschachtelt ist: (1|group1:group2)oder (1+group1|group2)?
  2. Was ist der Unterschied zwischen (~1 + ....)und (1 | ...)und (0 | ...)etc.?
  3. Wie spezifiziere ich Interaktionen auf Gruppenebene?
Amöbe
quelle
11
Das Handbuch und drei Vignetten für das lme4Paket finden Sie auf CRAN
Henry
4
Zusätzlich zu den CRAN-Materialien gibt es Vortragsfolien und Entwurfskapitel eines Buches, das Doug über (G) LMMs und R mit lme4 schreibt, erhältlich bei r-forge
Gavin Simpson,
Direkter Link zur arXiv-Version des JSS-Papers von Bates et al .: Anpassen von linearen Mixed-Effects-Modellen mit lme4 (insbesondere Abschnitt 2.2 " Grundlegendes zu Mixed-Model-Formeln"). Siehe auch den entsprechenden Abschnitt in den FAQ von Ben Bolker.
Amöbe
5
Die von verwendete Sprache lmerist wohl von allgemeinem statistischen Interesse und daher nicht nur eine Frage der Programmierung. Ich stimme daher dafür, diesen Thread offen zu halten.
Whuber
2
@whuber +1 Stimme voll und ganz zu.
Amöbe

Antworten:

180

Was ist der Unterschied zwischen (~ 1 + ....) und (1 | ...) und (0 | ...) usw.?

Angenommen, Sie haben die Variable V1, die durch die kategoriale Variable V2 vorhergesagt wird, die als zufälliger Effekt behandelt wird, und die stetige Variable V3, die als linearer fester Effekt behandelt wird. Unter Verwendung der früheren Syntax ist das einfachste Modell (M1):

V1 ~ (1|V2) + V3

Dieses Modell schätzt:

P1: Ein globaler Schnittpunkt

P2: Zufällige Effektabschnitte für V2 (dh für jede Ebene von V2 die Abweichung des Abschnitts dieser Ebene vom globalen Abschnitt)

P3: Eine einzelne globale Schätzung für den Effekt (Steigung) von V3

Das nächst komplexere Modell (M2) ist:

V1 ~ (1|V2) + V3 + (0+V3|V2)

Dieses Modell schätzt alle Parameter aus M1, schätzt aber zusätzlich:

P4: Der Effekt von V3 in jeder Ebene von V2 (genauer gesagt, der Grad, in dem der V3-Effekt in einer bestimmten Ebene vom globalen Effekt von V3 abweicht), während eine Null-Korrelation zwischen den Intercept-Abweichungen und den V3-Effekt-Abweichungen über Ebenen hinweg erzwungen wird von V2 .

Diese letztere Einschränkung wird in einem endgültig komplexesten Modell (M3) gelockert:

V1 ~ (1+V3|V2) + V3

Dabei werden alle Parameter von M2 geschätzt, während eine Korrelation zwischen den Abschnittsabweichungen und den V3-Effektabweichungen innerhalb von V2-Pegeln möglich ist. Somit wird in M3 ein zusätzlicher Parameter geschätzt:

P5: Die Korrelation zwischen Schnittabweichungen und V3-Abweichungen über Ebenen von V2

Normalerweise werden Modellpaare wie M2 und M3 berechnet und dann verglichen, um den Beweis für Korrelationen zwischen festen Effekten (einschließlich des globalen Abschnitts) zu evaluieren.

Fügen Sie nun einen weiteren festen Effektprädiktor hinzu, V4. Das Model:

V1 ~ (1+V3*V4|V2) + V3*V4

würde schätzen:

P1: Ein globaler Schnittpunkt

P2: Eine einzelne globale Schätzung für den Effekt von V3

P3: Eine einzelne globale Schätzung für den Effekt von V4

P4: Eine einzelne globale Schätzung für die Wechselwirkung zwischen V3 und V4

P5: Abweichungen des Abschnitts von P1 in jeder Ebene von V2

P6: Abweichungen des V3-Effekts von P2 in jeder Stufe von V2

P7: Abweichungen des V4-Effekts von P3 in jeder Stufe von V2

P8: Abweichungen der V3-durch-V4-Wechselwirkung von P4 in jeder Ebene von V2

P9 Korrelation zwischen P5 und P6 über Ebenen von V2

P10 Korrelation zwischen P5 und P7 über Ebenen von V2

P11 Korrelation zwischen P5 und P8 über Ebenen von V2

P12 Korrelation zwischen P6 und P7 über Ebenen von V2

P13 Korrelation zwischen P6 und P8 über Ebenen von V2

P14 Korrelation zwischen P7 und P8 über Ebenen von V2

Puh , das sind viele Parameter! Und ich habe mir nicht einmal die Mühe gemacht, die vom Modell geschätzten Varianzparameter aufzulisten. Wenn Sie eine kategoriale Variable mit mehr als 2 Ebenen haben, die Sie als festen Effekt modellieren möchten, werden Sie anstelle eines einzelnen Effekts für diese Variable immer k-1-Effekte schätzen (wobei k die Anzahl der Ebenen ist). Dadurch wird die Anzahl der vom Modell zu schätzenden Parameter noch weiter explodiert.

Mike Lawrence
quelle
1
@ Mike Lawrence Danke für die Antwort! Wie wird dann ein 3-Stufen-Modell geschätzt? Wo ist ein Gruppierungsfaktor in einem anderen verschachtelt?
DBR, ich glaube nicht, dass Sie wissen, welche Ebenen sind. Sie haben schon immer danach gefragt. Stellen Sie eine Frage, die Ihr Experimentdesign genau beschreibt und Ihre Interpretation von "Level" demonstriert.
John
3
Ich denke, DBR bezieht sich auf Ebenen in der Hierarchie. Was ich beschrieben habe, ist ein hierarchisches Modell mit zwei Ebenen, bei dem Beobachtungen innerhalb von Fächern verschachtelt sind, und der DBR fragt nach Hierarchien mit drei Ebenen. Ein Beispiel hierfür sind Testobjekte innerhalb von Schülern in Schulen, in denen Sie sowohl Schüler als auch Schulen als zufällig modellieren möchten Effekte, mit Schülern in den Schulen verschachtelt. In solchen Fällen gehe ich davon aus, dass zuerst die Abweichungen des Schulniveaus berechnet werden und dann die Abweichungen des Schülers von der Schule.
Mike Lawrence
2
Beste Antwort, die ich für die Einrichtung der Modelle gesehen habe. Hat mir geholfen, meinem Chef einen einfachen Rahmen zu bieten, um zu verstehen, was ich in R mit lmer mache.
bfoste01
Yij=γ00+γ10Xij+γ01Zj+γ11XijZj+u1jXij+u0j+eij
iijjlmerY~X+Z+(1|group)+(0+X|Z)group
50

Der allgemeine Trick ist, wie in einer anderen Antwort erwähnt , dass die Formel der Form folgt dependent ~ independent | grouping. Dies groupingist im Allgemeinen ein Zufallsfaktor. Sie können feste Faktoren ohne Gruppierung einschließen und Sie können zusätzliche Zufallsfaktoren ohne festen Faktor haben (ein reines Intercept-Modell). Ein +zwischen Faktoren zeigt keine Wechselwirkung an, ein *zeigt Wechselwirkung an.

Für Zufallsfaktoren haben Sie drei Grundvarianten:

  1. Abschnitte nur durch Zufallsfaktor: (1 | random.factor)
  2. Pisten nur nach Zufallsfaktor: (0 + fixed.factor | random.factor)
  3. Abschnitte und Steigungen nach Zufallsfaktor: (1 + fixed.factor | random.factor)

Beachten Sie, dass bei Variante 3 die Steigung und der Achsenabschnitt in derselben Gruppierung, dh zur selben Zeit, berechnet werden. Wenn wir wollen, dass die Steigung und der Achsenabschnitt unabhängig voneinander berechnet werden, dh ohne angenommene Korrelation zwischen den beiden, brauchen wir eine vierte Variante:

  • Intercept und Neigung, getrennt durch Zufallsfaktor: (1 | random.factor) + (0 + fixed.factor | random.factor). Eine alternative Möglichkeit, dies zu schreiben, ist die Verwendung der Doppelstrichnotation fixed.factor + (fixed.factor || random.factor).

Es gibt auch eine schöne Zusammenfassung in einer anderen Antwort auf diese Frage, die Sie sich ansehen sollten.

Wenn Sie ein wenig in die Mathematik vertiefen wollen, haben Barr et al. (2013) fassen die lmerSyntax in ihrer Tabelle 1 recht gut zusammen, die hier angepasst wurde, um die Einschränkungen des tabellenlosen Abzeichnens zu erfüllen. Das Papier befasste sich mit psycholinguistischen Daten, also sind Subjectund die beiden zufälligen Effekte Item.

Modelle und äquivalente lme4Formelsyntax:

    • Ysi=β0+β1Xi+esi
    • N / A (kein Modell mit gemischten Effekten)
    • Ysi=β0+S0s+β1Xi+esi
    • Y ∼ X+(1∣Subject)
    • Ysi=β0+S0s+(β1+S1s)Xi+esi
    • Y ∼ X+(1 + X∣Subject)
    • Ysi=β0+S0s+I0i+(β1+S1s)Xi+esi
    • Y ∼ X+(1 + X∣Subject)+(1∣Item)
    • Ysi=β0+S0s+I0i+β1Xi+esi
    • Y ∼ X+(1∣Subject)+(1∣Item)
    • Wie (4), aber , unabhängig S0sS1s
    • Y ∼ X+(1∣Subject)+(0 + X∣ Subject)+(1∣Item)
    • Ysi=β0+I0i+(β1+S1s)Xi+esi
    • Y ∼ X+(0 + X∣Subject)+(1∣Item)

Verweise:

Barr, Dale J., R. Levy, C. Scheepers und HJ Tily (2013). Random-Effects-Struktur für das Testen von Bestätigungshypothesen: Halten Sie sie maximal . Journal of Memory and Language, 68: 255– 278.

Livius
quelle
4
Nett. Es könnte besser sein, Informationen über verschachtelte '/' Faktoren und doppelte Strichnotation '||'
Skan
1
Was ist mit dem: -Symbol?
eastafri
1
@eastafri Es bedeutet, dass es überall in R (Formeln) dasselbe tut - die Interaktion zwischen zwei Variablen.
Livius
Nach meinem Verständnis in (6) haben und keine Korrelation zwischen ihnen. Mit anderen Worten ist ihre Kovarianz als Zufallsvariable . Zu sagen, dass und unabhängig sind, ist eine stärkere Aussage und daher nicht unbedingt wahr. Irre ich mich S0sS1s0S0sS1s
Muno
4

Das |Symbol kennzeichnet einen Gruppierungsfaktor bei gemischten Methoden.

Nach Pinheiro & Bates:

... Die Formel bezeichnet auch eine Antwort und, sofern verfügbar, eine primäre Kovariate . Es ist gegeben als

response ~ primary | grouping

Dabei responseist ein Ausdruck für die Antwort, primaryein Ausdruck für die primäre Kovariate und groupingein Ausdruck für den Gruppierungsfaktor.

Je nachdem, in welcher Methode Sie eine Analyse mit gemischten Methoden durchführen R, müssen Sie möglicherweise ein groupedDataObjekt erstellen, um die Gruppierung in der Analyse verwenden zu können (siehe nlmePaket für Details, lme4scheint dies nicht zu benötigen). Ich kann nicht mit der Art und Weise sprechen, wie Sie Ihre lmerModellanweisungen angegeben haben, da ich Ihre Daten nicht kenne. Ein Mehrfaches (1|foo)in der Modellreihe zu haben, ist jedoch ungewöhnlich, was ich gesehen habe. Was versuchst du zu modellieren?

Michelle
quelle