Notation für die Mehrebenenmodellierung

10

Die Formel, die man für das Training eines Mehrebenenmodells ( lmeraus der lme4 RBibliothek) angeben muss, bringt mich immer weiter. Ich habe unzählige Lehrbücher und Tutorials gelesen, aber nie richtig verstanden.

Hier ist ein Beispiel aus diesem Tutorial , das ich gerne in einer Gleichung formuliert sehen würde. Wir versuchen, die Sprachfrequenz in verschiedenen Szenarien als Funktion des Geschlechts (Frauen haben eine höhere Stimme als Männer im Allgemeinen) und der Einstellung der Person (ob sie höflich oder informell geantwortet hat) zu modellieren. Wie Sie der subjectSpalte entnehmen können, wurde jede Person mehrmals gemessen.

> head(politeness, n=20)
   subject gender scenario attitude frequency
1       F1      F        1      pol     213.3
2       F1      F        1      inf     204.5
3       F1      F        2      pol     285.1
4       F1      F        2      inf     259.7
5       F1      F        3      pol     203.9
6       F1      F        3      inf     286.9
7       F1      F        4      pol     250.8
8       F1      F        4      inf     276.8
9       F1      F        5      pol     231.9
10      F1      F        5      inf     252.4
11      F1      F        6      pol     181.2
12      F1      F        6      inf     230.7
13      F1      F        7      inf     216.5
14      F1      F        7      pol     154.8
15      F3      F        1      pol     229.7
16      F3      F        1      inf     237.3
17      F3      F        2      pol     236.8
18      F3      F        2      inf     251.0
19      F3      F        3      pol     267.0
20      F3      F        3      inf     266.0

subject, genderUnd attitudesind Faktoren (mit informalund femaleals Basisebene betrachteten für attitudeund genderin den Gleichungen unten). Eine Idee ist nun, ein Modell mit unterschiedlichen Abschnitten für jedes zu trainieren subjectund scenario:

politeness.model=lmer(frequency ~ attitude + gender + 
 (1|subject) + (1|scenario), data=politeness)

Wenn mein Verständnis der Notation korrekt ist, entspricht dies:

yi=aj[i]1+ak[i]2+β attitudepoli+γ gendermalei

wo bezeichnet Datenpunkt, Bezeichnet Gruppenebene für und Bezeichnet Gruppenebene für für Datenpunkt. und sind binäre Indikatoren.iithj[i]subjectk[i]scenarioithattitudepolgendermale

Um zufällige Steigungen für die Einstellung einzuführen, können wir schreiben:

politeness.model = lmer(frequency ~ attitude + gender + 
 (1+attitude|subject) + (1+attitude|scenario), data=politeness)

Wenn mein Verständnis klar ist, entspricht dies wiederum:

yi=aj[i]1+ak[i]2+(βj[i]1+βk[i]2) attitudepoli+γ gendermalei

Welcher Gleichung entspricht nun der folgende RBefehl?

politeness.null = lmer(frequency ~ gender +
 (1+attitude|subject) +  (1+attitude|scenario), data=politeness)
abhinavkulkarni
quelle
1
nicht sehr vernünftig; Die durchschnittliche Neigung der Bevölkerung in Bezug auf die Einstellung wird als Null angenommen ...
Ben Bolker
@ BenBolker: Hey, kannst du es bitte in einer Gleichungsform schreiben? Sind meine vorherigen Gleichungen korrekt? Im letzten Modell sehe ich immer attitudenoch konditioniert auf subjectund scenario.
Abhinavkulkarni

Antworten:

12

ich würde schreiben

~ attitude + gender + (1|subject) + (1|scenario)

wie

yiβ0+β1I(attitude=pol)+β2I(gender=male)+b1,j[i]+b2,k[i]+ϵib1N(0,σ12)b2N(0,σ22)ϵN(0,σr2)
wobei einen Koeffizienten mit festem Effekt angibt , eine Zufallsvariable angibt, eine Indikatorfunktion ist (dies ist im Grunde das gleiche wie das, was Sie oben gesagt haben, nur geringfügig andere Notation).βbI
~ attitude + gender + (1+attitude|subject) + (1+attitude|scenario)

fügt Variationen zwischen den Subjekten als Reaktion auf attitudeund hinzu scenario(wir könnten den Teil mit zufälligen Effekten äquivalent schreiben als (attitude|subject) + (attitude|scenario), dh den Abschnitt implizit lassen; dies ist Geschmackssache). Jetzt

yiβ0+β1I(attitude=pol)+β2I(gender=male)+b1,j[i]+b3,j[i]I(attitude=pol)+b2,k[i]+b4,k[i]I(attitude=pol)+ϵi{b1,b3}MVN(0,Σ1){b2,b4}MVN(0,Σ2)ϵN(0,σr2)
wobei und unstrukturierte Varianz-Kovarianz-Matrizen sind, dh sie sind symmetrisch und positiv (halb) definitiv, aber ohne andere Einschränkungen: und ähnlich für .Σ1Σ2
Σ1=(σ12σ13σ13σ32)
Σ2

Es kann lehrreich sein, Begriffe wie folgt zu gruppieren: So können Sie sehen, welche zufälligen Effekte den Achsenabschnitt beeinflussen und welche die Reaktion auf die Einstellung beeinflussen.

yi(β0+b1,j[i]+b2,k[i])+(β1+b3,j[i]+b4,k[i])I(attitude=pol)+β2I(gender=male)+ϵi

Wenn Sie nun den attitudeTerm mit festem Effekt weglassen (dh oder den Term aus der Formel streichen), können Sie sehen (ohne alles neu zu schreiben), dass wir es sein werden, da angenommen wird, dass die zufälligen Effekte den Mittelwert Null haben Unter der Annahme, dass die durchschnittliche Reaktion auf die Einstellung zwischen Themen und Szenarien genau Null ist, gibt es immer noch Unterschiede zwischen Themen und Szenarien. Ich werde nicht sagen, dass dies aus statistischer Sicht niemals Sinn macht, aber es tut es selten. Es gibt Diskussionen zu diesem Thema auf der Mailingliste [email protected] von Zeit zu Zeit ... (oder es kann irgendwo auf StackExchange besprochen werden - wenn nicht, wäre es eine gute Folge -up SE Frage ...)β1=0attitude

Ben Bolker
quelle