Vergleich eines gemischten Modells (Subjekt als Zufallseffekt) mit einem einfachen linearen Modell (Subjekt als fester Effekt)

10

Ich beende eine Analyse eines großen Datensatzes. Ich möchte das im ersten Teil der Arbeit verwendete lineare Modell verwenden und es mithilfe eines linearen gemischten Modells (LME) neu anpassen. Die LME wäre sehr ähnlich, mit der Ausnahme, dass eine der im Modell verwendeten Variablen als zufälliger Effekt verwendet würde. Diese Daten stammen aus vielen Beobachtungen (> 1000) in einer kleinen Gruppe von Probanden (~ 10), und ich weiß, dass die Modellierung des Effekts eines Probanden besser als zufälliger Effekt erfolgt (dies ist eine Variable, die ich verschieben möchte). Der R-Code würde folgendermaßen aussehen:

my_modelB <- lm(formula = A ~ B + C + D)    
lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML')

Alles läuft gut und die Ergebnisse sind sehr ähnlich. Es wäre schön, wenn ich so etwas wie RLRsim oder einen AIC / BIC verwenden könnte, um diese beiden Modelle zu vergleichen und zu entscheiden, welches am besten geeignet ist. Meine Kollegen möchten die LME nicht melden, da es keine leicht zugängliche Möglichkeit gibt, die "bessere" auszuwählen, obwohl ich denke, dass die LME das geeignetere Modell ist. Irgendwelche Vorschläge?

MudPhud
quelle

Antworten:

6

Dies soll die Antwort von @ ocram ergänzen, da es zu lang ist, um als Kommentar zu posten. Ich würde es A ~ B + Cals Ihr Nullmodell behandeln, damit Sie die statistische Signifikanz eines Dzufälligen Abschnitts auf einer Ebene in einem verschachtelten Modellaufbau beurteilen können . Wie ocram hervorhob, werden Regelmäßigkeitsbedingungen verletzt, wenn , und die Likelihood-Ratio-Teststatistik (LRT) wird nicht notwendigerweise asymptotisch verteilt sein . Die Lösung, die mir beigebracht wurde, bestand darin, das LRT (dessen Bootstrap-Verteilung wahrscheinlich nicht ) parametrisch zu booten und einen Bootstrap-p-Wert wie folgt zu berechnen:χ 2 χ 2H0:σ2=0χ2χ2

library(lme4)
my_modelB <- lm(formula = A ~ B + C)
lme_model <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
lrt.observed <- as.numeric(2*(logLik(lme_model) - logLik(my_modelB)))
nsim <- 999
lrt.sim <- numeric(nsim)
for (i in 1:nsim) {
    y <- unlist(simulate(mymodlB))
    nullmod <- lm(y ~ B + C)
    altmod <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
    lrt.sim[i] <- as.numeric(2*(logLik(altmod) - logLik(nullmod)))
}
mean(lrt.sim > lrt.observed) #pvalue

Der Anteil der Bootstrap-LRTs, der extremer ist als der beobachtete LRT, ist der p-Wert.

abgesperrt
quelle
Vielen Dank für die Vervollständigung meiner Antwort. Manchmal verwenden Menschen auch eine Mischung aus Chi-Quadraten anstelle einer Chi-Quadrat-Verteilung für die Teststatistik.
Ocram
@ocram +1 für Ihren Kommentar zur Entscheidung, ob die Variable als zufällig oder fest getrennt von der Analyse behandelt werden soll. @MudPhud Wenn Ihr PI das Problem nicht versteht und auf einem p-Wert besteht, zeigen Sie ihm möglicherweise nur das Ergebnis des Tests des zufälligen Effekts (den Sie ohnehin in die Beschreibung aufnehmen würden).
gesperrt
Danke für den Code. Wenn ich es ausgeführt habe, ist das Ergebnis, dass keine der Bootstrap-LRTs größer als die beobachteten sind. Dies bedeutet, dass ich mich ohne zufällige Effekte oder sogar die ursprüngliche Variable an den lm halten kann.
MudPhud
@MudPhud: Hast du irgendwelche Fehler bekommen? Versuchen Sie zu tippen lrt.sim, um sicherzustellen, dass es sich nicht nur um Nullen handelt. In diesem Fall ist der wahrscheinlichste Schuldige, dass Sie das Paket nicht lme4installiert haben.
gesperrt
Sie sind nicht 0, nur sehr klein (~ 1e-6) im Vergleich zu den beobachteten (63,95).
MudPhud
2

Ich bin mir nicht ganz sicher, welches Modell passt, wenn Sie die lme-Funktion verwenden. (Ich denke, der zufällige Effekt soll einer Normalverteilung mit dem Mittelwert Null folgen?). Das lineare Modell ist jedoch ein Sonderfall des gemischten Modells, wenn die Varianz des Zufallseffekts Null ist. Obwohl einige technische Schwierigkeiten bestehen (da in der Grenze des Parameterraums für die Varianz liegt), sollte es möglich sein, zu testen vs ...H 0 : v a r i a n c e = 0 H 1 : v a r i a n c e > 00H0:variance=0H1:variance>0

BEARBEITEN

Um Verwirrung zu vermeiden: Der oben erwähnte Test wird manchmal verwendet, um zu entscheiden, ob der zufällige Effekt signifikant ist oder nicht ... aber nicht, um zu entscheiden, ob er in einen festen Effekt umgewandelt werden soll oder nicht.

ocram
quelle
Die Frage ist: Gibt es Tests, um zu entscheiden, ob die Variable als gemischter Effekt oder zufälliger Effekt modelliert werden soll? Andernfalls könnten Sie den von Ihnen beschriebenen Test durchführen und ihn dann mit einem Chi-Quadrat-Abstand testen (ich bin mir nicht sicher, welcher Test geeignet wäre).
MudPhud
2
@MudPhud: Die Modellierung einer Variablen als fester oder zufälliger Effekt sollte tatsächlich vor der Analyse entschieden werden, wenn die Studie geplant ist. Dies hängt insbesondere vom Umfang Ihrer Schlussfolgerungen ab. Zufällige Effekte ermöglichen eine bessere Generalisierbarkeit. Es könnte auch einige technische Schwierigkeiten vermeiden. Beispielsweise kann die Asymptotik zusammenbrechen, wenn die Anzahl der Parameter zunimmt, wie dies der Fall ist, wenn eine kategoriale Variable mit vielen Ebenen als feste Variable betrachtet wird.
Ocram
Ich stimme zu, aber als ich versuchte, dies meinem PI zu erklären, drehte er sich einfach um und bat um einen p-Wert. Ich möchte diese Analyse in ein Manuskript aufnehmen, aber er wird sie nicht einfügen, wenn es keine konkretere Rechtfertigung gibt.
MudPhud
1
@MudPhud: Nach meinem besten Wissen gibt es keinen p-Wert für eine solche Entscheidung. Wenn sich das Interesse auf die Auswirkung der gewählten spezifischen Ebenen konzentriert, sollte dies als fest angesehen werden. Wenn die verfügbaren Faktorstufen als Zufallsstichprobe aus einer größeren Population angesehen werden und Schlussfolgerungen für die größere Population gewünscht werden, sollte der Effekt zufällig sein.
Ocram