Angenommen , ich habe Teilnehmer, von denen jeder eine Antwort gibt mal 20, 10 in einem Zustand und 10 in einem anderen. Ich passe ein lineares Mischeffektmodell an, das in jeder Bedingung vergleicht. Hier ist ein reproduzierbares Beispiel, das diese Situation anhand des Pakets in simuliert :Y Ylme4
R
library(lme4)
fml <- "~ condition + (condition | participant_id)"
d <- expand.grid(participant_id=1:40, trial_num=1:10)
d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental"))
set.seed(23432)
d <- cbind(d, simulate(formula(fml),
newparams=list(beta=c(0, .5),
theta=c(.5, 0, 0),
sigma=1),
family=gaussian,
newdata=d))
m <- lmer(paste("sim_1 ", fml), data=d)
summary(m)
Das Modell m
liefert zwei feste Effekte (einen Schnittpunkt und eine Steigung für die Bedingung) und drei zufällige Effekte (einen zufälligen Schnittpunkt für jeden Teilnehmer, eine zufällige Steigung für jeden Teilnehmer für die Bedingung und eine Korrelation zwischen Schnittpunkt und Steigung).
Ich möchte die Größe der zufälligen Intercept-Varianz nach Teilnehmern statistisch über die durch definierten Gruppen vergleichen condition
(dh die rot hervorgehobene Varianzkomponente innerhalb der Kontroll- und Versuchsbedingungen getrennt berechnen und dann testen, ob der Unterschied in der Größe der Komponenten besteht ist nicht Null). Wie würde ich das machen (am besten in R)?
BONUS
Nehmen wir an, das Modell ist etwas komplizierter: Die Teilnehmer erleben jeweils 10 Stimuli 20-mal, 10 in einer Bedingung und 10 in einer anderen. Somit gibt es zwei Sätze gekreuzter zufälliger Effekte: zufällige Effekte für Teilnehmer und zufällige Effekte für Stimulus. Hier ist ein reproduzierbares Beispiel:
library(lme4)
fml <- "~ condition + (condition | participant_id) + (condition | stimulus_id)"
d <- expand.grid(participant_id=1:40, stimulus_id=1:10, trial_num=1:10)
d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental"))
set.seed(23432)
d <- cbind(d, simulate(formula(fml),
newparams=list(beta=c(0, .5),
theta=c(.5, 0, 0, .5, 0, 0),
sigma=1),
family=gaussian,
newdata=d))
m <- lmer(paste("sim_1 ", fml), data=d)
summary(m)
Ich möchte die Größe der zufälligen Abfangvarianz nach Teilnehmern über die durch definierten Gruppen statistisch vergleichen condition
. Wie würde ich das machen und unterscheidet sich der Prozess von dem in der oben beschriebenen Situation?
BEARBEITEN
Um etwas genauer zu wissen, wonach ich suche, möchte ich Folgendes wissen:
- Ist die Frage "Sind die bedingten mittleren Antworten innerhalb jeder Bedingung (dh zufällige Schnittwerte in jeder Bedingung) wesentlich voneinander verschieden, über das hinaus, was wir aufgrund von Stichprobenfehlern erwarten würden", eine genau definierte Frage (dh ist diese Frage)? sogar theoretisch beantwortbar)? Wenn nein, warum nicht?
- Wenn die Antwort auf Frage (1) Ja lautet, wie würde ich sie beantworten? Ich würde eine
R
Implementierung vorziehen , aber ich bin nicht an daslme4
Paket gebunden - zum Beispiel scheint es, als ob dasOpenMx
Paket die Fähigkeit hat, Analysen auf mehreren Gruppen und Ebenen ( https: //openmx.ssri.psu) durchzuführen. edu / openmx-features ), und dies scheint die Art von Frage zu sein, die in einem SEM-Framework beantwortet werden sollte.
quelle
Antworten:
Es gibt mehr als einen Weg, diese Hypothese zu testen. Zum Beispiel sollte das von @amoeba beschriebene Verfahren funktionieren. Mir scheint jedoch, dass die einfachste und zweckmäßigste Methode zum Testen die Verwendung eines guten alten Likelihood-Ratio-Tests ist, bei dem zwei verschachtelte Modelle verglichen werden. Der einzige potenziell knifflige Teil dieses Ansatzes besteht darin, zu wissen, wie das Modellpaar so eingerichtet wird, dass das Herausfallen eines einzelnen Parameters die gewünschte Hypothese ungleicher Varianzen sauber testet. Im Folgenden erkläre ich, wie das geht.
Kurze Antwort
Wechseln Sie zur Kontrastcodierung (Summe zu Null) für Ihre unabhängige Variable und führen Sie dann einen Likelihood-Ratio-Test durch, bei dem Sie Ihr vollständiges Modell mit einem Modell vergleichen, bei dem die Korrelation zwischen zufälligen Steigungen und zufälligen Abschnitten 0 ist:
Visuelle Erklärung / Intuition
Damit diese Antwort sinnvoll ist, müssen Sie intuitiv verstehen, welche unterschiedlichen Werte des Korrelationsparameters für die beobachteten Daten gelten. Betrachten Sie die (zufällig variierenden) fachspezifischen Regressionslinien. Grundsätzlich steuert der Korrelationsparameter, ob sich die Regressionslinien der Teilnehmer relativ zum PunktX=0 "nach rechts auffächern" (positive Korrelation) oder "nach links auffächern" (negative Korrelation) , wobei X Ihre kontrastcodierte Unabhängigkeit ist Variable. Beides impliziert eine ungleiche Varianz der bedingten Mittelwerte der Teilnehmer. Dies ist unten dargestellt:
In diesem Diagramm ignorieren wir die mehreren Beobachtungen, die wir für jedes Subjekt in jeder Bedingung haben, und zeichnen stattdessen nur die zwei zufälligen Mittelwerte jedes Subjekts auf, wobei eine Linie sie verbindet und die zufällige Steigung dieses Subjekts darstellt. (Dies sind Daten von 10 hypothetischen Personen, nicht die im OP veröffentlichten Daten.)
In der linken Spalte, in der eine starke negative Korrelation zwischen Steigung und Achsenabschnitt besteht, werden die Regressionslinien relativ zum PunktX=0 nach links aufgefächert . Wie Sie in der Abbildung deutlich sehen können, führt dies bei Bedingung X=−1 zu einer größeren Varianz der Zufallsmittelwerte der Probanden als bei Bedingung X=1 .
Die rechte Spalte zeigt das umgekehrte Spiegelbild dieses Musters. In diesem Fall gibt es größere Varianz in den statistischen Mittel der Probanden in ZustandX=1 als im Zustand X=−1 .
Die Spalte in der Mitte zeigt, was passiert, wenn die zufälligen Steigungen und Abschnitte nicht korreliert sind. Dies bedeutet, dass sich die Regressionslinien genau so nach links auffächern, wie sie sich nach rechts auffächern, bezogen auf den PunktX=0 . Dies impliziert, dass die Varianzen der Mittelwerte der Probanden unter den beiden Bedingungen gleich sind.
Es ist hier von entscheidender Bedeutung, dass wir ein Kontrastcodierungsschema von Summe zu Null verwendet haben, nicht Dummy-Codes (dh, dass die Gruppen nicht aufX=0 vs. X=1 ). Es ist nur unter dem Kontrast - Codierschema , dass wir diese Beziehung haben , wobei die Varianzen gleich sind , wenn und nur wenn die Steigungsabschnitt-Korrelation ist 0. Die nachfolgende Abbildung versucht aufzubauen , die Intuition:
Was diese Abbildung zeigt, ist derselbe exakte Datensatz in beiden Spalten, wobei die unabhängige Variable jedoch auf zwei verschiedene Arten codiert ist. In der linken Spalte verwenden wir Kontrastcodes - das ist genau die Situation aus der ersten Abbildung. In der rechten Spalte verwenden wir Dummy-Codes. Dies ändert die Bedeutung der Abschnitte - jetzt stellen die Abschnitte die vorhergesagten Antworten der Probanden in der Kontrollgruppe dar. Das untere Feld zeigt die Konsequenz dieser Änderung, nämlich, dass die Korrelation zwischen Steigung und Achsenabschnitt nicht mehr nahe bei 0 liegt, obwohl die Daten im tiefen Sinne gleich sind und die bedingten Varianzen in beiden Fällen gleich sind. Wenn dies immer noch nicht viel Sinn macht, kann es hilfreich sein, meine vorherige Antwort zu studieren, in der ich mehr über dieses Phänomen spreche.
Beweis
Seiyijk die j te Antwort des i ten Subjekts unter der Bedingung k . (Wir haben hier nur zwei Bedingungen, k ist also entweder 1 oder 2.) Dann kann das gemischte Modell geschrieben werden:
yijk=αi+βixk+eijk,
wobei αi die Subjekte sind. zufällige Abschnitte und haben Varianz σ2α , βi sind die zufällige Steigung der Versuchspersonen und haben eine Varianz σ2β , eijk ist der Beobachtungsebenen-Fehlerterm und cov ( αich, βich) = σα β .
Wir wollen zeigen, dassvar ( αich+ βichx1) = var ( αich+ βichx2) ⇔ σα β= 0.
Beginnend mit der linken Seite dieser Implikation haben wirvar ( αich+ βichx1)σ2α+ x21σ2β+ 2x1σα βσ2β( x21- x22)+2σαβ(x1−x2)=var(αi+βix2)=σ2α+x22σ2β+2x2σαβ=0.
Kontrastcodes von Summe zu Null implizieren, dassx1+x2=0 und x21=x22=x2 . Dann können wir weiter die letzte Zeile der obigen reduzieren , um
σ2β(x2−x2) +2σαβ(x1+x1)σα β= 0= 0 ,
das wollten wir beweisen. (Um die andere Richtung der Implikation zu bestimmen, können wir genau diese Schritte in umgekehrter Reihenfolge ausführen.)
Um es noch einmal zu wiederholen, dies zeigt, dass, wenn die unabhängige Variable kontrastcodiert (Summe zu Null) ist , die Varianzen der zufälligen Mittelwerte der Subjekte in jeder Bedingung nur dann gleich sind, wenn die Korrelation zwischen zufälligen Steigungen und zufälligen Abschnitten 0 ist. Der Schlüssel mitnehmen Punkt von all dieser ist , dass die Prüfung der Nullhypothese , dassσα β= 0 wird die Nullhypothese von gleichen Varianzen Test von dem OP beschrieben ist .
Dies funktioniert NICHT, wenn die unabhängige Variable beispielsweise Dummy-codiert ist. Insbesondere, wenn wir die Wertex1= 0 und x2= 1 in die obigen Gleichungen einfügen, finden wir, dass
var ( αich) = var ( αich+ βich) ⇔ σα β= - σ2β2.
quelle
(1 | subject)
dummy
Sie können die Signifikanz von Modellparametern mit Hilfe von geschätzten Konfidenzintervallen testen, für die das lme4-Paket die
confint.merMod
Funktion hat.Bootstrapping (siehe zum Beispiel Konfidenzintervall vom Bootstrap )
Wahrscheinlichkeitsprofil (siehe z. B. Welche Beziehung besteht zwischen der Wahrscheinlichkeit des Profils und den Konfidenzintervallen? )
Es gibt auch eine Methode, die
'Wald'
jedoch nur auf feste Effekte angewendet wird.Es gibt auch eine Art von Anova-Ausdruck (Likelihood-Verhältnis) in dem Paket,
lmerTest
das benannt istranova
. Aber ich kann nicht scheinen, einen Sinn daraus zu machen. Die Verteilung der Unterschiede in logLikelihood ist, wenn die Nullhypothese (Nullvarianz für den Zufallseffekt) wahr ist, nicht Chi-Quadrat-verteilt (möglicherweise ist der Likelihood-Ratio-Test sinnvoll, wenn die Anzahl der Teilnehmer und Versuche hoch ist).Varianz in bestimmten Gruppen
Um Ergebnisse für die Varianz in bestimmten Gruppen zu erhalten, können Sie diese neu parametrisieren
Wenn wir dem Datenrahmen zwei Spalten hinzugefügt haben (dies ist nur erforderlich, wenn Sie die nicht korrelierte "Kontrolle" und "experimentell" bewerten möchten. Die Funktion
(0 + condition || participant_id)
würde nicht zur Bewertung der verschiedenen Faktoren in der Bedingung als nicht korreliert führen.)Nun
lmer
wird die Varianz für die verschiedenen Gruppen angegebenUnd Sie können die Profilmethoden auf diese anwenden. Zum Beispiel gibt Confint jetzt Konfidenzintervalle für die Kontrolle und die experimentelle Varianz an.
Einfachheit
Sie könnten die Likelihood-Funktion verwenden, um genauere Vergleiche zu erhalten, aber es gibt viele Möglichkeiten, Annäherungen auf der Straße vorzunehmen (z. B. könnten Sie einen konservativen Anova- / Lrt-Test durchführen, aber ist das das, was Sie wollen?).
An dieser Stelle frage ich mich, worum es eigentlich bei diesem (nicht so häufigen) Vergleich von Varianzen geht. Ich frage mich, ob es zu raffiniert wird. Warum der Unterschied zwischen Varianzen anstelle des Verhältnisses zwischen Varianzen (was sich auf die klassische F-Verteilung bezieht)? Warum nicht einfach Konfidenzintervalle melden? Wir müssen einen Schritt zurücktreten und die Daten und die Geschichte, die sie erzählen sollen, klären, bevor wir auf fortgeschrittene Pfade eingehen, die überflüssig sind und den Kontakt mit der statistischen Materie und den statistischen Überlegungen verlieren, die eigentlich das Hauptthema sind.
Ich frage mich, ob man viel mehr tun sollte, als nur die Konfidenzintervalle anzugeben (die tatsächlich viel mehr aussagen als einen Hypothesentest. Ein Hypothesentest gibt eine Ja-Nein-Antwort, aber keine Information über die tatsächliche Ausbreitung der Population. Wenn Sie genügend Daten haben, können Sie einen geringfügigen Unterschied machen, der als signifikanter Unterschied ausgewiesen wird). Um tiefer in die Materie einzusteigen (für welchen Zweck auch immer), bedarf es meines Erachtens einer spezifischeren (eng definierten) Forschungsfrage, um den mathematischen Maschinen die richtigen Vereinfachungen zu geben (auch wenn eine genaue Berechnung möglich ist oder wann) es könnte durch Simulationen / Bootstrapping angenähert werden, selbst dann bedarf es in einigen Einstellungen noch einer angemessenen Interpretation). Vergleichen Sie mit dem genauen Test von Fisher, um eine (bestimmte) Frage (über Kontingenztabellen) genau zu lösen.
Einfaches Beispiel
Um ein Beispiel für die Einfachheit zu geben, die möglich ist, zeige ich im Folgenden einen Vergleich (durch Simulationen) mit einer einfachen Bewertung des Unterschieds zwischen den beiden Gruppenvarianzen auf der Grundlage eines F-Tests, der durch Vergleichen der Varianzen in den einzelnen mittleren Antworten und durch Vergleichen durchgeführt wird das gemischte Modell abgeleitet Varianzen.
Sie können dies in der Simulation der folgenden Grafik sehen, in der neben dem auf der Stichprobe basierenden F-Score ein F-Score berechnet wird, der auf den vorhergesagten Varianzen (oder Quadratsummen) des Modells basiert.
Sie können sehen, dass es einen Unterschied gibt. Dieser Unterschied kann auf die Tatsache zurückzuführen sein, dass das lineare Modell mit gemischten Effekten die Quadratsummen des Fehlers (für den Zufallseffekt) auf andere Weise ermittelt. Und diese quadratischen Fehlerausdrücke werden (nicht mehr) gut als einfache Chi-Quadrat-Verteilung ausgedrückt, sind aber immer noch eng miteinander verwandt und können angenähert werden.
Das auf den Mitteln basierende Modell ist also sehr genau. Aber es ist weniger mächtig. Dies zeigt, dass die richtige Strategie davon abhängt, was Sie wollen / brauchen.
Wenn Sie im obigen Beispiel die rechten Endgrenzen auf 2,1 und 3,1 setzen, erhalten Sie bei gleicher Varianz ungefähr 1% der Bevölkerung (bzw. 103 und 104 der 10 000 Fälle), bei ungleicher Varianz unterscheiden sich diese Grenzen jedoch viel (mit 5334 und 6716 Fällen)
Code:
quelle
sim_1 ~ condition + (0 + condition | participant_id)"
In diesem Fall erhalten Sie eine Parametrisierung in zwei Parameter (einen für jede Gruppe) und nicht in zwei Parameter, einen für den Intercept und einen für den Effekt (den müssen für die Gruppen kombiniert werden).car::linearHypothesisTest
( math.furman.edu/~dcs/courses/math47/R/library/car/html/… ) beantwortet werden , wodurch der Benutzer beliebige Hypothesen mit einem angepassten Modell testen kann. Allerdings müsste ich die @ amoeba-Methode verwenden, um beide zufälligen Abschnitte in demselben modellangepassten Modell zu erhalten, damit sie mit dieser Funktion verglichen werden können. Ich bin mir auch ein wenig unsicher, ob die Methode gültig ist.Ein relativ einfacher Weg könnte sein, Likelihood-Ratio-Tests über
anova
wie in denlme4
FAQ beschrieben zu verwenden .Wir beginnen mit einem vollständigen Modell, in dem die Varianzen nicht eingeschränkt sind (dh zwei verschiedene Varianzen sind zulässig), und passen dann zu einem eingeschränkten Modell, in dem angenommen wird, dass die beiden Varianzen gleich sind. Wir vergleichen sie einfach mit
anova()
(beachte, dass ich setze,REML = FALSE
obwohl esREML = TRUE
mitanova(..., refit = FALSE)
durchaus machbar ist ).Dieser Test ist jedoch wahrscheinlich konservativ . In den FAQ heißt es beispielsweise:
Es gibt verschiedene Alternativen:
Erstellen Sie eine geeignete Testverteilung, die in der Regel aus einer Mischung von bestehtχ2 Verteilungen. Siehe z. B.
Self, SG & Liang, K.-Y. (1987). Asymptotische Eigenschaften von Maximum-Likelihood-Schätzern und Likelihood-Ratio-Tests unter nicht standardisierten Bedingungen. Journal of the American Statistical Association, 82 (398), 605. https://doi.org/10.2307/2289471 Dies ist jedoch recht kompliziert.
Simulieren Sie die korrekte Verteilung mit
RLRsim
(wie auch in den FAQ beschrieben).Ich werde die zweite Option im Folgenden demonstrieren:
Wie wir sehen können, deutet die Ausgabe darauf hin, dass
REML = TRUE
wir mit genaue Ergebnisse erzielt hätten. Dies ist jedoch eine Übung für den Leser.In Bezug auf den Bonus bin ich mir nicht sicher, ob das
RLRsim
gleichzeitige Testen mehrerer Komponenten möglich ist, aber in diesem Fall kann dies auf die gleiche Weise erfolgen.Antwort auf Kommentar:
Ich bin nicht sicher, ob diese Frage eine vernünftige Antwort erhalten kann.
Beeinflussen Zufallssteigungen also den Zufallsabschnitt? In gewissem Sinne kann dies sinnvoll sein, da sie jeder Ebene des Gruppierungsfaktors für jede Bedingung einen völlig eigenwilligen Effekt verleihen. Am Ende schätzen wir zwei idiosynkratische Parameter für zwei Zustände. Ich denke jedoch, dass die Unterscheidung zwischen dem durch den Schnittpunkt erfassten Gesamtpegel und dem durch die zufällige Steigung erfassten bedingungsspezifischen Effekt wichtig ist, und dass die zufällige Steigung dann den zufälligen Schnittpunkt nicht wirklich beeinflussen kann. Es lässt jedoch weiterhin zu, dass jede Ebene des Gruppierungsfaktors für jede Ebene der Bedingung eine eigene Identität aufweist.
Trotzdem macht mein Test immer noch, was die ursprüngliche Frage will. Es wird geprüft, ob der Unterschied in den Abweichungen zwischen den beiden Bedingungen Null ist. Wenn es Null ist, sind die Varianzen in beiden Zuständen gleich. Mit anderen Worten, nur wenn keine Zufallssteigung erforderlich ist, ist die Varianz unter beiden Bedingungen identisch. Ich hoffe das ergibt Sinn.
quelle
contr.treatment
), für die die Kontrollbedingung die Referenz ist (dh für die der zufällige Achsenabschnitt berechnet wird). Die Parametrisierung, die ich vorschlage, benutze ich Summenkontraste (dhcontr.sum
) und der Achsenabschnitt ist der große Mittelwert. Ich halte es für sinnvoller, zu testen, ob der Unterschied null ist, wenn der Achsenabschnitt der große Mittelwert anstelle der Kontrollbedingung ist (aber das Schreiben deutet darauf hin, dass dies möglicherweise relativ belanglos ist). Vielleicht möchten Sie die Seiten 24 bis 26 lesen: singmann.org/download/publications/…condition
: Es ermöglicht, dass der Zufallsabschnitt über Ebenen von variiertcondition
. Ist das wahr?m_full
vs.m_full2b
. Das heißt: Die Varianzen der bedingten Mittelwerte der Antworten der Teilnehmer in A gegen B sind ungleich, wenn die zufällige Korrelation der Abschnittssteigung ungleich Null ist - was wichtig ist, unter der Parametrisierung der Kontrastcodierung von Summe zu Null . Das Testen der zufälligen Steigungsvarianz ist nicht erforderlich. Ich versuche zu überlegen, wie ich das kurz und bündig erklären kann ...Dein Modell
ermöglicht bereits, dass sich die subjektübergreifende Varianz in der Kontrollbedingung von der subjektübergreifenden Varianz in der Versuchsbedingung unterscheidet. Dies kann durch eine äquivalente Neuparametrisierung deutlicher gemacht werden:
Die zufällige Kovarianzmatrix ist jetzt einfacher zu interpretieren:
Hierbei sind die beiden Varianzen genau die beiden Varianzen, an denen Sie interessiert sind: die Varianz der bedingten Mittelwerte unter den Kontrollbedingungen und dieselbe unter den experimentellen Bedingungen. In Ihrem simulierten Datensatz sind dies 0,25 und 0,21. Der Unterschied ist gegeben durch
und ist gleich 0,039. Sie möchten testen, ob es sich erheblich von Null unterscheidet.
EDIT: Ich habe festgestellt, dass der unten beschriebene Permutationstest falsch ist. es funktioniert nicht wie beabsichtigt, wenn die Mittelwerte im Kontroll- / Versuchszustand nicht die gleichen sind (da dann die Beobachtungen nicht unter der Null austauschbar sind). Es ist möglicherweise eine bessere Idee, Themen (oder Themen / Gegenstände im Bonusfall) zu booten und das Konfidenzintervall für zu erhalten
delta
.Ich werde versuchen, den folgenden Code zu korrigieren, um das zu tun.
Ursprünglicher permutationsbasierter Vorschlag (falsch)
Ich stelle oft fest, dass man sich durch einen Permutationstest viel Ärger ersparen kann. In diesem Fall ist die Einrichtung sehr einfach. Lassen Sie uns die Kontroll- / Versuchsbedingungen für jedes Subjekt separat permutieren. dann sollte jeder Unterschied in den Abweichungen beseitigt werden. Wenn Sie dies mehrmals wiederholen, erhalten Sie die Nullverteilung für die Differenzen.
(Ich programmiere nicht in R; jeder kann das Folgende in einem besseren R-Stil umschreiben.)
Wenn Sie dies ausführen, erhalten Sie den p-Wertp = 0,7 . Man kann
nrep
auf 1000 oder so erhöhen .Genau die gleiche Logik kann in Ihrem Bonusfall angewendet werden.
quelle
sim_1 ~ 0 + condition + (0 + dummy(condition, "control") + dummy(condition, "experimental") | participant_id)
Formulierung verwenden und das gleiche Ergebnis wie in meiner Antwort erhalten.Betrachtet man dieses Problem aus einer etwas anderen Perspektive und geht man von der "allgemeinen" Form des linearen Mischmodells ausyi j k= μ + αj+ dich j+ ei j k,dich∼ N( 0 , Σ ) ,ei j k∼ N( 0 , σ2)
wo αj ist die feste Wirkung der j 'th Bedingung und dich= ( dich 1, … , Dich J)⊤ ist ein Zufallsvektor (manche nennen ihn vektorwertiger Zufallseffekt, glaube ich) für die ich Teilnehmer an der j 'th Bedingung. yi 1 k und yi 2 k was ich als bezeichnen werde EIN und B im folgenden. Also die Kovarianzmatrix des zweidimensionalen Zufallsvektorsdich ist von der allgemeinen Form
In Ihrem Beispiel haben wir zwei Bedingungen
mit nicht negativσ2EIN und σ2B .
Schauen wir uns zunächst an, wie die Version von umparametriert wirdΣ sieht aus, wenn wir Summenkontraste verwenden.
Die Varianz des Abschnitts, die dem großen Mittelwert entspricht, ist
Die Varianz des Kontrastes ist
Und die Kovarianz zwischen dem Schnittpunkt und dem Kontrast ist
Thus, the re-parameterizedΣ is
Setting the covariance parameterσ12 to zero we get
which, as @Jake Westfall derived slightly differently, tests the hypothesis of equal variances when we compare a model without this covariance parameter to a model where the covariance parameter is still included/not set to zero.
Notably, introducing another crossed random grouping factor (such as stimuli) does not change the model comparison that has to be done, i.e.,
anova(mod1, mod2)
(optionally with the argumentrefit = FALSE
when you use REML estimation) wheremod1
andmod2
are defined as @Jake Westfall did.Taking outσ12 and the variance component for the contrast σ22 (what @Henrik suggests) results in
which tests the hypothesis that the variances in the two conditions are equal and that they are equal to the (positive) covariance between the two conditions.
When we have two conditions, a model that fits a covariance matrix with two parameters in a (positive) compound symmetric structure can also be written as
or (using the categorical variable/factor
condition
)with
whereσ21 and σ22 are the variance parameters for the participant and the participant-condition-combination intercepts, respectively. Note that this Σ has a non-negative covariance parameter.
Below we see that
mod1
,mod3
, andmod4
yield equivalent fits:With treatment contrasts (the default in R) the re-parameterizedΣ is
whereσ21 is the variance parameter for the intercept (condition A ), σ22 the variance parameter for the contrast (A−B ), and σ12 the corresponding covariance parameter.
We can see that neither settingσ12 to zero nor setting σ22 to zero tests (only) the hypothesis of equal variances.
However, as shown above, we can still useΣ for this model.
mod4
to test the hypothesis as changing the contrasts has no impact on the parameterization ofquelle