Warum führen diese beiden Ansätze zur Anwendung gemischter Modelle zu unterschiedlichen Ergebnissen?

8

Ich analysiere die Daten eines Kollegen erneut. Die Daten und der R-Code sind hier .

Es ist ein 2x2x2x2x3 vollständig innerhalb von Ss Design. Eine der Prädiktorvariablen cueist eine zweistufige Variable, die, wenn sie auf eine Differenzbewertung reduziert wird, einen theoretisch relevanten Wert widerspiegelt. Zuvor war sie cueauf eine Differenzbewertung innerhalb jedes Subjekts und jeder Bedingung zusammengebrochen und berechnete dann eine ANOVA, die eine MSE ergab, die sie dann für geplante Vergleiche der mittleren Differenzbewertung jeder Bedingung gegen Null verwenden konnte. Sie müssen mir vertrauen, dass sie nicht fischte und tatsächlich eine gute theoretische Grundlage für alle 24 Tests hatte.

Ich dachte, ich würde sehen, ob es einen Unterschied gibt, wenn stattdessen Modelle mit gemischten Effekten zur Darstellung der Daten verwendet werden. Wie im Code gezeigt, habe ich zwei Ansätze gewählt:

Methode 1 - Modellieren Sie die Daten als 2x2x2x2x3-Design, erhalten Sie nachträgliche Stichproben aus diesem Modell, berechnen Sie die cueDifferenzbewertung für jede Bedingung innerhalb jeder Stichprobe und berechnen Sie das 95% -Vorhersageintervall für die Cue-Differenzbewertung innerhalb jeder Bedingung.

Methode 2 - Auf cueeine Differenzbewertung innerhalb jedes Subjekts und jeder Bedingung kollabieren, die Daten als 2x2x2x3-Design modellieren, a posteriori Proben aus diesem Modell erhalten, das 95% -Vorhersageintervall für die Cue-Differenzbewertung innerhalb jeder Bedingung berechnen.

Es scheint, dass Methode 1 breitere Vorhersageintervalle liefert als Methode 2, mit der Folge, dass, wenn man eine Überlappung mit Null als Kriterium für "Signifikanz" verwendet, nur 25% der Cue-Scores unter Methode 1 "signifikant" sind, während 75% der Cue-Scores "signifikant" sind sind unter Methode 2 "signifikant". Bemerkenswerterweise ähneln die durch Methode 2 erhaltenen Signifikanzmuster eher den ursprünglichen ANOVA-basierten Ergebnissen als die durch Methode 1 erhaltenen Muster.

Irgendeine Idee, was hier los ist?

Mike Lawrence
quelle

Antworten:

3

Es ist nicht überraschend, einen solchen Unterschied zu lmer oder lme zu sehen. Ein einfaches Modell mit einem zufälligen Achsenabschnitt (z. B. (1 | id) in Ihrem Fall) kann manchmal die zufälligen Effekte nicht vollständig erfassen. Um zu sehen, warum dies geschieht, möchte ich einen viel einfacheren Datensatz als Ihren verwenden, um den subtilen Unterschied zu demonstrieren. Mit den Daten 'dat' aus dem Thread, in den ich hier kopiere:

dat <- structure(list(sex = structure(c(1L, 2L, 1L, 2L, 1L, 2L, 1L,
2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L,
2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L), .Label = c("f",
"m"), class = "factor"), prevalence = c(0, 0.375, 0.133333333333333,
0.176470588235294, 0.1875, 0, 0, 1, 1, 0.5, 0.6, 0.333333333333333,
0.5, 0, 0.333333333333333, 0, 0.5, 0, 0.625, 0.333333333333333,
0.5, 0, 0.333333333333333, 0.153846153846154, 0.222222222222222,
0.5, 1, 0.5, 0, 0.277777777777778, 0.125, 0, 0, 0.428571428571429,
0.451612903225806, 0.362068965517241), tripsite = structure(c(1L,
1L, 4L, 4L, 14L, 14L, 5L, 5L, 8L, 8L, 15L, 15L, 6L, 6L, 9L, 9L,
11L, 11L, 16L, 16L, 2L, 2L, 7L, 7L, 10L, 10L, 13L, 13L, 17L,
17L, 3L, 3L, 12L, 12L, 18L, 18L), .Label = c("1.2", "4.2", "5.2",
"1.3", "2.3", "3.3", "4.3", "2.4", "3.4", "4.4", "3.5", "5.5",
"4.6", "1.9", "2.9", "3.9", "4.9", "5.9"), class = "factor")), .Names =
c("sex","prevalence", "tripsite"), row.names = c(1L, 2L, 3L, 4L, 9L,
10L, 11L, 12L, 13L, 14L, 17L, 18L, 19L, 20L, 21L, 22L, 23L, 24L,
27L, 28L, 29L, 30L, 31L, 32L, 33L, 34L, 35L, 36L, 38L, 39L, 40L,
41L, 42L, 43L, 45L, 46L), class = "data.frame")

Ein gepaarter T-Test (oder ein Sonderfall einer Einweg-ANOVA innerhalb des Probanden / mit wiederholten Messungen) entspricht Ihrer Methode 2:

t0 <- with(dat,t.test(prevalence[sex=="f"],prevalence[sex=="m"],paired=TRUE,var.equal=TRUE))
(fstat0 <- t0$statistic^2)         #0.789627

Die Version, die Ihrer Methode 1 entspricht, lautet:

a1 <- anova(lme(prevalence~sex,random=~1|tripsite,data=dat,method="REML"))
(fstat1 <- a1[["F-value"]][2])   # 0.8056624

Gleiches gilt für das frühere Gegenstück:

a2 <- anova(lmer(prevalence~sex+(1|tripsite), data=dat))
(fstat2 <- a2[["F value"]][2])  # 0.8056624

Der Unterschied zu diesem einfachen Beispiel ist zwar winzig, aber es zeigt, dass der gepaarte t-Test eine viel stärkere Annahme über die beiden Ebenen ("f" und "m") des Faktors ("Geschlecht") hat, dass die beiden Ebenen korreliert sind, und eine solche Annahme fehlt im obigen lme / lmer-Modell. Ein solcher Annahmeunterschied besteht auch in Ihrem Fall zwischen den beiden Methoden.

Um den Unterschied in Einklang zu bringen, können wir 'dat' mit einer zufälligen Steigung (oder symmetrischen Matrix oder sogar zusammengesetzten Symmetrie) in lme / lmer weiter modellieren:

a3 <- anova(lme(prevalence~sex,random=~sex-1|tripsite,data=dat,method="REML"))
(fstat3 <- a3[["F-value"]][2]) # 0.789627

a31 <- anova(lme(prevalence~sex,random=list(tripsite=pdCompSymm(~sex-1)),data=dat,method="REML")))
(fstat31 <- a31[["F-value"]][2]) # 0.789627

a4 <- anova(lmer(prevalence~sex+(sex-1|tripsite), data=dat))
(fstat4 <- a4[["F value"]][2]) # 0.789627

Bei mehreren Faktoren in Ihrem Fall können jedoch mehrere zufällige Steigungen (oder andere Strukturspezifikationen für zufällige Effekte) mit lme / lmer unhandlich werden, wenn dies nicht unmöglich ist.

Bluepole
quelle
Guter Anruf. Ich sehe jetzt, dass das Zusammenfallen, um vor der Analyse auf einen Differenzwert hinzuweisen, gleichbedeutend damit ist, dass der Cue-Effekt je nach Teilnehmer variiert.
Mike Lawrence