Warum führt die Kodierung der Behandlung zu einer Korrelation zwischen zufälliger Steigung und Schnittpunkt?

7

Betrachten Sie ein faktorielles Design innerhalb des Subjekts und innerhalb des Gegenstands, bei dem die experimentelle Behandlungsvariable zwei Ebenen (Bedingungen) aufweist. Sei m1das Maximalmodell und m2das No-Random-Correlations-Modell.

m1: y ~ condition + (condition|subject) + (condition|item)
m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item)

Dale Barr gibt für diese Situation Folgendes an:
Bearbeiten (20.04.2008): Wie Jake Westfall hervorhob, scheinen sich die folgenden Aussagen nur auf die Datensätze zu beziehen, die in Abb. 1 und 2 auf dieser Website dargestellt sind. Die Keynote bleibt jedoch gleich.

In einer abweichungscodierenden Darstellung (Bedingung: -0,5 vs. 0,5) sind m2Verteilungen möglich, bei denen die zufälligen Abschnitte des Subjekts nicht mit den zufälligen Steigungen des Subjekts korreliert sind. Nur ein maximales Modell m1erlaubt Verteilungen, bei denen die beiden korreliert sind.

In der behandlungskodierenden Darstellung (Bedingung: 0 vs. 1) können diese Verteilungen, bei denen die zufälligen Abschnitte des Subjekts nicht mit den zufälligen Steigungen des Subjekts korreliert sind, nicht unter Verwendung des No-Random-Correlations-Modells angepasst werden, da in jedem Fall eine Korrelation zwischen Random besteht Steigung und Schnittpunkt in der Darstellung der Behandlungscodierung.

Warum codiert die Behandlung? immer zu einer Korrelation zwischen zufälliger Steigung und Achsenabschnitt führen?

statmerkur
quelle

Antworten:

24

Die Kodierung der Behandlung führt nicht immer oder notwendigerweise zu einer Korrelation zwischen Schnittpunkten und Steigungen, neigt jedoch häufig dazu. Es ist am einfachsten zu erkennen, warum dies bei Bildern der Fall ist, und wenn man den Fall eines kontinuierlichen und nicht eines kategorialen Prädiktors betrachtet.

Hier ist ein Bild eines normal aussehenden Cluster-Datensatzes mit einer Korrelation von ungefähr 0 zwischen den zufälligen Abschnitten und den zufälligen Steigungen: Geben Sie hier die Bildbeschreibung ein

Aber schauen Sie jetzt, was passiert, wenn Sie den Prädiktor X weit nach rechts verschieben, indem Sie jedem X-Wert 3 hinzufügen: Geben Sie hier die Bildbeschreibung ein

Es ist im Grunde genommen derselbe Datensatz - wenn wir die Datenpunkte vergrößern würden, würde er mit dem ersten Diagramm identisch aussehen, aber die X-Achse neu beschriftet - aber einfach durch Verschieben von X haben wir eine nahezu perfekte negative Korrelation zwischen ihnen induziert die zufälligen Abschnitte und zufälligen Steigungen. Dies geschieht, weil wir beim Verschieben von X die Abschnitte jeder Gruppe neu definieren. Denken Sie daran, dass sich die Abschnitte immer auf die Y-Werte beziehen, bei denen die gruppenspezifischen Regressionslinien X = 0 kreuzen. Aber jetzt ist der Punkt X = 0 weit von der Mitte der Daten entfernt. Wir extrapolieren also im Wesentlichen außerhalb des Bereichs der beobachteten Daten, um die Abschnitte zu berechnen. Wie Sie sehen, ist das Ergebnis, dass der Achsenabschnitt umso niedriger ist, je größer die Steigung ist, und umgekehrt.

Wenn Sie die Behandlungscodierung verwenden, ist dies wie eine weniger extreme Version der im unteren Diagramm dargestellten X-Verschiebung. Dies liegt daran, dass die Behandlungscodes {0,1} nur eine verschobene Version der Abweichungscodes {-0,5, 0,5} sind, bei denen eine Verschiebung von +0,5 hinzugefügt wurde. Edit 2018-08-29: Dies wird jetzt klarer und direkter in der zweiten Abbildung dieser neueren Antwort von mir auf eine andere Frage dargestellt .

Wie ich bereits sagte, ist dies nicht notwendigerweise wahr . Es ist möglich, einen Datensatz ähnlich dem oben genannten zu haben, bei dem jedoch die Steigungen und Abschnitte auf der verschobenen Skala nicht korreliert sind (wobei sich die Abschnitte auf Punkte beziehen, die weit von den Daten entfernt sind) und auf der zentrierten Skala korreliert sind. Die gruppenspezifischen Regressionslinien in solchen Datensätzen weisen jedoch tendenziell "Fanning-out" -Muster auf, die in der Praxis in der realen Welt einfach nicht so häufig sind.

Jake Westfall
quelle
2
+1 Sehr schöne Antwort.
Amöbe
2
Stimmen Sie @amoeba zu, da die Abbildungen die Idee sehr gut vermitteln.
whuber
1
@statmerkur Ich bin mir ziemlich sicher, dass sich "in jedem Fall" einfach auf die 3 in Abbildung 2 dargestellten Verteilungen bezieht (und nicht etwa auf jeden möglichen Datensatz), von denen alle 3 tatsächlich eine Korrelation ungleich Null aufweisen. Ich denke, das ist nur ein grammatikalisches Missverständnis.
Jake Westfall
1
Vielleicht bin ich hier stumpf, aber es fällt mir schwer, diese Antwort vollständig mit der ursprünglichen Frage zu verbinden. Diese Antwort macht einen großartigen Job und zeigt die Situation, in der das Verschieben eines kontinuierlichen Prädiktors Korrelationen zwischen zufälligen Abschnitten und Steigungen hervorrufen kann. Wie ist die Behandlungscodierung gleichbedeutend mit der Verschiebung eines kontinuierlichen Prädiktors und wie unterscheidet sie sich in dieser Hinsicht von der Abweichungscodierung?
Ryan Simmons
1
@RyanSimmons Da die Behandlungscodes {0,1} nur eine verschobene Version der Abweichungscodes {-0,5, 0,5} sind, wurde eine Verschiebung von +0,5 hinzugefügt. Ich werde meine Antwort bearbeiten, um dies deutlicher herauszustellen
Jake Westfall
-1

Ich glaube, das liegt daran, dass alles, was mal Null ist, Null ist. Wenn Sie sich also alle vier möglichen Wechselwirkungen (Multiplikationen) von 0 und 1 ansehen, sind drei von vier Null. Andererseits sind zwei von vier Wechselwirkungen von -1 und 1 1 und zwei -1.

Wayne
quelle