Vergleich von Mischeffektmodellen mit der gleichen Anzahl von Freiheitsgraden

15

Ich habe ein Experiment, das ich hier zu abstrahieren versuchen werde. Stellen Sie sich vor, ich werfe drei weiße Steine ​​vor Sie und bitte Sie, ein Urteil über ihre Position zu fällen. Ich nehme eine Vielzahl von Eigenschaften der Steine ​​und Ihre Reaktion auf. Ich mache das über eine Reihe von Themen. Ich generiere zwei Modelle. Einer ist, dass der nächste Stein Ihre Reaktion vorhersagt, und der andere ist, dass der geometrische Mittelpunkt der Steine ​​Ihre Reaktion vorhersagt. Mit lmer in RI könnte man also schreiben.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

UPDATE AND CHANGE - direktere Version mit mehreren hilfreichen Kommentaren

ich könnte es versuchen

anova(mNear, mCenter)

Das ist natürlich falsch, weil sie nicht verschachtelt sind und ich sie nicht wirklich so vergleichen kann. Ich hatte erwartet, dass anova.mer einen Fehler auslöst, aber das war nicht der Fall. Aber die mögliche Verschachtelung, die ich hier versuchen könnte, ist nicht natürlich und lässt mich immer noch mit etwas weniger analytischen Aussagen zurück. Wenn Modelle natürlich verschachtelt sind (z. B. quadratisch auf linear), ist der Test nur eine Möglichkeit. Aber was würde es in diesem Fall bedeuten, asymmetrische Befunde zu haben?

Zum Beispiel könnte ich ein Modell drei machen:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Dann kann ich anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

Dies ist fair zu tun und jetzt finde ich, dass die Mitte zum nächsten Effekt (dem zweiten Befehl) beiträgt, aber der BIC tatsächlich steigt, wenn die nächste zur Mitte hinzukommt (Korrektur für die niedrigere Sparsamkeit). Dies bestätigt, was vermutet wurde.

Aber ist das ausreichend? Und ist das fair, wenn das Zentrum und das nächste so stark korrelieren?

Gibt es eine bessere Möglichkeit, die Modelle analytisch zu vergleichen, wenn es nicht darum geht, erklärende Variablen (Freiheitsgrade) zu addieren und zu subtrahieren?

John
quelle
Ihre Modelle sind nicht verschachtelt. Was wäre der Grund für die Verwendung eines LRT zwischen den beiden?
Chl
Die Dinge wurden gemäß Ihrem Kommentar angepasst
John

Antworten:

9

Sie können jedoch Konfidenzintervalle für Ihre festen Effekte berechnen und AIC oder BIC melden (siehe z . B. Cnann et al. , Stat Med 1997 16: 2349).

Vielleicht möchten Sie jetzt einen Blick auf die Bewertung der Modellnachahmung mit dem parametrischen Bootstrap von Wagenmakers et al. Werfen. Dies scheint Ihrer ursprünglichen Frage nach der Bewertung der Qualität zweier konkurrierender Modelle eher zu ähneln.

Ansonsten sind die zwei Artikel über Maße der erklärten Varianz in LMM, die mir in den Sinn kommen:

  • Lloyd J. Edwards, Keith E. Müller, Russell D. Wolfinger, Bahjat F. Qaqish und Oliver Schabenberger (2008). Eine R2-Statistik für feste Effekte im linearen Mischmodell , Statistics in Medicine , 27 (29), 6137–6157.
  • Ronghui Xu (2003). Messung der erklärten Variation in linearen Mischeffektmodellen , Statistics in Medicine , 22 (22), 3527–3541.

Aber vielleicht gibt es bessere Möglichkeiten.

chl
quelle
11

Dem Vorschlag von Ronaf zu folgen, führt zu einer neueren Veröffentlichung von Vuong für einen Likelihood Ratio Test an nicht verschachtelten Modellen. Es basiert auf dem KLIC (Kullback-Leibler Information Criterion), das dem AIC insofern ähnlich ist, als es den KL-Abstand minimiert. Es wird jedoch eine probabilistische Spezifikation für die Hypothese erstellt, sodass die Verwendung der LRT zu einem prinzipielleren Vergleich führt. Eine zugänglichere Version der Cox- und Vuong-Tests wird von Clarke et al. Siehe insbesondere Abbildung 3, in der der Algorithmus zur Berechnung des Vuong-LRT-Tests dargestellt ist.

Es scheint R-Implementierungen des Vuong-Tests in anderen Modellen zu geben, aber nicht früher. Dennoch sollte der oben erwähnte Umriss ausreichen, um einen zu implementieren. Ich glaube nicht, dass Sie die Wahrscheinlichkeit, die an jedem Datenpunkt ausgewertet wird, von lmer abrufen können, wie es für die Berechnung erforderlich ist. In einem Hinweis zu sig-ME hat Douglas Bates einige Hinweise , die hilfreich sein könnten (insbesondere die von ihm erwähnte Vignette ).


Älter

Eine andere Möglichkeit besteht darin, die angepassten Werte aus den Modellen in einem Test der Vorhersagegenauigkeit zu berücksichtigen. Hier kann die Williams-Kloot-Statistik angebracht sein. Der grundlegende Ansatz besteht darin, die tatsächlichen Werte gegen eine lineare Kombination der angepassten Werte aus den beiden Modellen zu regressieren und die Steigung zu testen:

Der erste Artikel beschreibt den Test (und andere), während der zweite eine Anwendung in einem ökonometrischen Panel-Modell hat.


Beim Verwenden lmerund Vergleichen von AICs wird standardmäßig die REML-Methode (Restricted Maximum Likelihood) verwendet. Dies ist in Ordnung, um weniger voreingenommene Schätzungen zu erhalten. Wenn Sie jedoch Modelle vergleichen, sollten Sie eine erneute Anpassung vornehmen, bei REML=FALSEder die Maximum-Likelihood-Methode zum Anpassen verwendet wird. Das Pinheiro / Bates-Buch erwähnt einige Bedingungen, unter denen es in Ordnung ist, AIC / Likelihood mit REML oder ML zu vergleichen, und diese können in Ihrem Fall sehr gut zutreffen. Die generelle Empfehlung lautet jedoch, einfach nachzurüsten. Siehe zum Beispiel den Beitrag von Douglas Bates hier:

ars
quelle
Ich habe nicht angegeben, dass ich mit REML = FALSE gepasst habe. Ich bin immer noch ein bisschen in einem Dilemma ... Der AIC gibt mir ein Maß für die gesamte Wahrscheinlichkeit, einschließlich der zufälligen Effekte. Das ist eine große Komponente. Und natürlich ist es äußerst unwahrscheinlich, dass die AIC genau gleich sind. Daher erscheint es unklug, nur den größeren Wert auszuwählen, ohne auf analytische Weise zu sagen, wie viel größer er ist.
John
@ John Dieser Vortrag hebt interessante Punkte über REML vs. ML und AIC hervor (und verweist auf das, was Sie gesagt haben, John), j.mp/bhUVNt . Bolkers Rezension von GLMM ist auch einen Blick wert: j.mp/cAepqA .
chl
4

Es gibt einen Artikel von DRCOX , in dem das Testen einzelner [nicht verschachtelter] Modelle erörtert wird. Es werden einige Beispiele betrachtet, die nicht zur Komplexität gemischter Modelle führen. [Da meine Möglichkeiten mit R-Code begrenzt sind, bin ich mir nicht ganz sicher, was Ihre Modelle sind.]

Das Papier von altho cox kann Ihr Problem möglicherweise nicht direkt lösen. Es kann auf zwei Arten hilfreich sein.

  1. Sie können in Google Scholar nach Zitaten zu seinem Artikel suchen, um zu prüfen, ob die späteren Ergebnisse Ihren Vorstellungen entsprechen.

  2. Wenn Sie eine analytische Neigung haben, können Sie versuchen, die Methode von cox auf Ihr Problem anzuwenden. [Vielleicht nicht für schwache Nerven.]

btw - cox erwähnt nebenbei die Idee, die beiden Modelle zu einem größeren zu kombinieren. er verfolgt nicht, wie man dann entscheiden würde, welches Modell besser ist, aber er merkt an, dass das kombinierte Modell eine angemessene Anpassung an die Daten ergeben könnte, auch wenn keines der Modelle sehr gut ist. [Es ist in Ihrer Situation nicht klar, ob ein kombiniertes Modell Sinn macht.]

Ronaf
quelle
3

Ich kenne R nicht gut genug, um Ihren Code zu analysieren, aber hier ist eine Idee:

Schätzen Sie ein Modell mit mittleren und nahen Kovariaten (nennen Sie dies mBoth). Dann sind mCenter und mNear in mBoth verschachtelt, und Sie können mBoth als Benchmark verwenden, um die relative Leistung von mCenter und mNear zu vergleichen.


quelle
1
Ich dachte, dass dies nicht angemessen wäre, da die beiden tatsächlich stark korrelieren würden. Da das Zentrum weit weg ist, wird auch die Nähe dazu neigen.
John
@ John Guter Punkt.
Ich denke, Ihr Standpunkt ist auch gut ... Ich bin mir nicht sicher, ob es darauf ankommt. Ich weiß, es ist hoch, aber unter 0,8 ... noch analysierbar.
John