Ich habe ein Experiment, das ich hier zu abstrahieren versuchen werde. Stellen Sie sich vor, ich werfe drei weiße Steine vor Sie und bitte Sie, ein Urteil über ihre Position zu fällen. Ich nehme eine Vielzahl von Eigenschaften der Steine und Ihre Reaktion auf. Ich mache das über eine Reihe von Themen. Ich generiere zwei Modelle. Einer ist, dass der nächste Stein Ihre Reaktion vorhersagt, und der andere ist, dass der geometrische Mittelpunkt der Steine Ihre Reaktion vorhersagt. Mit lmer in RI könnte man also schreiben.
mNear <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center + (1|subject), REML = FALSE)
UPDATE AND CHANGE - direktere Version mit mehreren hilfreichen Kommentaren
ich könnte es versuchen
anova(mNear, mCenter)
Das ist natürlich falsch, weil sie nicht verschachtelt sind und ich sie nicht wirklich so vergleichen kann. Ich hatte erwartet, dass anova.mer einen Fehler auslöst, aber das war nicht der Fall. Aber die mögliche Verschachtelung, die ich hier versuchen könnte, ist nicht natürlich und lässt mich immer noch mit etwas weniger analytischen Aussagen zurück. Wenn Modelle natürlich verschachtelt sind (z. B. quadratisch auf linear), ist der Test nur eine Möglichkeit. Aber was würde es in diesem Fall bedeuten, asymmetrische Befunde zu haben?
Zum Beispiel könnte ich ein Modell drei machen:
mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)
Dann kann ich anova.
anova(mCenter, mBoth)
anova(mNearest, mBoth)
Dies ist fair zu tun und jetzt finde ich, dass die Mitte zum nächsten Effekt (dem zweiten Befehl) beiträgt, aber der BIC tatsächlich steigt, wenn die nächste zur Mitte hinzukommt (Korrektur für die niedrigere Sparsamkeit). Dies bestätigt, was vermutet wurde.
Aber ist das ausreichend? Und ist das fair, wenn das Zentrum und das nächste so stark korrelieren?
Gibt es eine bessere Möglichkeit, die Modelle analytisch zu vergleichen, wenn es nicht darum geht, erklärende Variablen (Freiheitsgrade) zu addieren und zu subtrahieren?
Antworten:
Sie können jedoch Konfidenzintervalle für Ihre festen Effekte berechnen und AIC oder BIC melden (siehe z . B. Cnann et al. , Stat Med 1997 16: 2349).
Vielleicht möchten Sie jetzt einen Blick auf die Bewertung der Modellnachahmung mit dem parametrischen Bootstrap von Wagenmakers et al. Werfen. Dies scheint Ihrer ursprünglichen Frage nach der Bewertung der Qualität zweier konkurrierender Modelle eher zu ähneln.
Ansonsten sind die zwei Artikel über Maße der erklärten Varianz in LMM, die mir in den Sinn kommen:
Aber vielleicht gibt es bessere Möglichkeiten.
quelle
Dem Vorschlag von Ronaf zu folgen, führt zu einer neueren Veröffentlichung von Vuong für einen Likelihood Ratio Test an nicht verschachtelten Modellen. Es basiert auf dem KLIC (Kullback-Leibler Information Criterion), das dem AIC insofern ähnlich ist, als es den KL-Abstand minimiert. Es wird jedoch eine probabilistische Spezifikation für die Hypothese erstellt, sodass die Verwendung der LRT zu einem prinzipielleren Vergleich führt. Eine zugänglichere Version der Cox- und Vuong-Tests wird von Clarke et al. Siehe insbesondere Abbildung 3, in der der Algorithmus zur Berechnung des Vuong-LRT-Tests dargestellt ist.
Es scheint R-Implementierungen des Vuong-Tests in anderen Modellen zu geben, aber nicht früher. Dennoch sollte der oben erwähnte Umriss ausreichen, um einen zu implementieren. Ich glaube nicht, dass Sie die Wahrscheinlichkeit, die an jedem Datenpunkt ausgewertet wird, von lmer abrufen können, wie es für die Berechnung erforderlich ist. In einem Hinweis zu sig-ME hat Douglas Bates einige Hinweise , die hilfreich sein könnten (insbesondere die von ihm erwähnte Vignette ).
Älter
Eine andere Möglichkeit besteht darin, die angepassten Werte aus den Modellen in einem Test der Vorhersagegenauigkeit zu berücksichtigen. Hier kann die Williams-Kloot-Statistik angebracht sein. Der grundlegende Ansatz besteht darin, die tatsächlichen Werte gegen eine lineare Kombination der angepassten Werte aus den beiden Modellen zu regressieren und die Steigung zu testen:
Der erste Artikel beschreibt den Test (und andere), während der zweite eine Anwendung in einem ökonometrischen Panel-Modell hat.
Beim Verwenden
lmer
und Vergleichen von AICs wird standardmäßig die REML-Methode (Restricted Maximum Likelihood) verwendet. Dies ist in Ordnung, um weniger voreingenommene Schätzungen zu erhalten. Wenn Sie jedoch Modelle vergleichen, sollten Sie eine erneute Anpassung vornehmen, beiREML=FALSE
der die Maximum-Likelihood-Methode zum Anpassen verwendet wird. Das Pinheiro / Bates-Buch erwähnt einige Bedingungen, unter denen es in Ordnung ist, AIC / Likelihood mit REML oder ML zu vergleichen, und diese können in Ihrem Fall sehr gut zutreffen. Die generelle Empfehlung lautet jedoch, einfach nachzurüsten. Siehe zum Beispiel den Beitrag von Douglas Bates hier:quelle
Es gibt einen Artikel von DRCOX , in dem das Testen einzelner [nicht verschachtelter] Modelle erörtert wird. Es werden einige Beispiele betrachtet, die nicht zur Komplexität gemischter Modelle führen. [Da meine Möglichkeiten mit R-Code begrenzt sind, bin ich mir nicht ganz sicher, was Ihre Modelle sind.]
Das Papier von altho cox kann Ihr Problem möglicherweise nicht direkt lösen. Es kann auf zwei Arten hilfreich sein.
Sie können in Google Scholar nach Zitaten zu seinem Artikel suchen, um zu prüfen, ob die späteren Ergebnisse Ihren Vorstellungen entsprechen.
Wenn Sie eine analytische Neigung haben, können Sie versuchen, die Methode von cox auf Ihr Problem anzuwenden. [Vielleicht nicht für schwache Nerven.]
btw - cox erwähnt nebenbei die Idee, die beiden Modelle zu einem größeren zu kombinieren. er verfolgt nicht, wie man dann entscheiden würde, welches Modell besser ist, aber er merkt an, dass das kombinierte Modell eine angemessene Anpassung an die Daten ergeben könnte, auch wenn keines der Modelle sehr gut ist. [Es ist in Ihrer Situation nicht klar, ob ein kombiniertes Modell Sinn macht.]
quelle
Ich kenne R nicht gut genug, um Ihren Code zu analysieren, aber hier ist eine Idee:
Schätzen Sie ein Modell mit mittleren und nahen Kovariaten (nennen Sie dies mBoth). Dann sind mCenter und mNear in mBoth verschachtelt, und Sie können mBoth als Benchmark verwenden, um die relative Leistung von mCenter und mNear zu vergleichen.
quelle