Angenommen, in einer Studie mit 15 Probanden wird die Antwortvariable (res) mit zwei erklärenden Variablen modelliert, wobei eine (Ebene) mit 5 Ebenen kategorisch ist und die andere (Antwortzeit: RT) kontinuierlich ist. Mit lmer im lme4-Paket von R habe ich:
fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)
Df Sum Sq Mean Sq F value
level 4 3974.9 993.7 9.2181
RT 1 1953.5 1953.5 18.1209
level:RT 4 5191.4 1297.9 12.0393
Wenn ich die Reihenfolge der beiden Variablen ändere, erhalte ich leicht unterschiedliche Ergebnisse für die Haupteffekte:
fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)
Df Sum Sq Mean Sq F value
RT 1 1671.8 1671.8 15.5077
level 4 4256.7 1064.2 9.8715
RT:level 4 5191.4 1297.9 12.0393
Kommt ein solcher Unterschied von dem sequentiellen (statt marginalen) Ansatz in lme4 bei der Berücksichtigung der Datenvariabilität? In diesem Fall führt die Änderung der variablen Reihenfolge nicht zu einem großen Unterschied, aber zuvor habe ich dramatische Unterschiede gesehen. Was bedeutet ein so großer Unterschied? Bedeutet dies, dass das Modell mehr Abstimmung benötigt, bis der große Unterschied verschwindet?
Meine zweite Frage lautet: Wenn ich wissen möchte, welche Variable zwischen den beiden (RT und Ebene) für mehr Datenvariabilität verantwortlich ist, was wäre ein vernünftiger Ansatz? Basierend auf der relativen Größe von Sum Sq (oder Mean Sq) der beiden Variablen? Gibt es eine statistische Testmethode, um die Variabilität zwischen erklärenden Variablen zu vergleichen?
quelle
Antworten:
Ich werde versuchen, Ihre Fragen einzeln zu beantworten:
Richtig. Wie Sie sehen können, sind nur für die Interaktion die Ergebnisse gleich. Die Interaktion wird in beiden Fällen zuletzt in das Modell eingegeben, sodass die Ergebnisse für diesen Begriff gleich sind. Wenn Sie jedoch zuerst "level" und dann "RT" eingeben, zeigen die Ergebnisse für "RT" an, ob "RT" signifikant ist, nachdem "level" bereits im Modell enthalten ist (und umgekehrt). Diese Ergebnisse sind auftragsabhängig.
Angenommen, beide Variablen sind für sich genommen stark mit der Antwortvariablen verbunden, aber sie sind auch stark korreliert. In diesem Fall gibt es möglicherweise nicht viel Variabilität in der Antwortvariablen, die von der Variablen berücksichtigt werden muss, die als zweite in das Modell eingegeben wird. Daher werden Sie tendenziell dramatischere Unterschiede feststellen, wenn die erklärenden Variablen korreliert sind.
Ich bin mir nicht sicher, was du mit "Tuning" meinst. Das Phänomen, das Sie beobachten, ist an sich kein Problem, obwohl es die Interpretation der Ergebnisse erschwert (siehe unten).
Vielleicht ist dies eine Möglichkeit zum "Stimmen". Wenn die erklärenden Variablen stark korreliert sind, können sie im Wesentlichen dasselbe messen. In diesem Fall kann man das Modell "optimieren", indem man entweder eine der Variablen entfernt oder sie zu einer einzigen Variablen kombiniert.
Wenn die erklärenden Variablen korreliert sind, ist es ziemlich schwierig, ihre relative Bedeutung zu bestimmen. Dieses Problem tritt im Kontext der multiplen Regression ziemlich häufig auf, und Dutzende von Artikeln wurden zu diesem Thema verfasst, und es wurden viele Methoden zur Erreichung dieses Ziels vorgeschlagen. Es gibt sicherlich keinen Konsens über den am besten geeigneten Weg, und einige Leute könnten sogar vorschlagen, dass es keinen angemessenen Weg gibt, dies zu tun.
Die Quadratsummen werden Ihnen nicht helfen, da sie nicht auf der gleichen Anzahl von Freiheitsgraden basieren. Die mittleren Quadrate sind im Wesentlichen korrekt, aber wenn Sie die mittleren Quadrate verwenden, ist dies nichts anderes als die Verwendung der entsprechenden F-Werte (oder p-Werte), um die relative Bedeutung zu bestimmen. Ich denke, die meisten Leute würden dies nicht als angemessenen Weg zur Bestimmung der relativen Bedeutung betrachten.
Leider habe ich keine einfache Lösung. Stattdessen kann ich Ihnen eine Website vom Autor des
relaimpo
Pakets vorschlagen . Ich denke nicht, dass das Paket Ihnen beim Anpassen von Modellen mit gemischten Effekten helfen wird, aber es gibt viele Verweise auf Artikel zu dem Thema, mit dem Sie sich befassen.http://prof.beuth-hochschule.de/groemping/relaimpo/
Vielleicht möchten Sie auch in das
AICcmodavg
Paket schauen :http://cran.r-project.org/web/packages/AICcmodavg/index.html
quelle