Berechnung von

13

Ich habe über die Berechnung von R2 -Werten in gemischten Modellen gelesen und nach dem Lesen der R-sig-FAQ, anderer Beiträge in diesem Forum (ich würde ein paar verlinken, aber ich habe nicht genug Ruf) und einiger anderer Referenzen, die ich unter Verwendung von verstehe 2R2 Werte im Kontext gemischter Modelle sind kompliziert.

Ich bin jedoch kürzlich auf diese beiden Papiere gestoßen. Obwohl diese Methoden (für mich) vielversprechend sind, bin ich kein Statistiker, und als solcher habe ich mich gefragt, ob jemand anderes einen Einblick in die von ihm vorgeschlagenen Methoden hat und wie er sie mit anderen vorgeschlagenen Methoden vergleichen würde.

Nakagawa, Shinichi und Holger Schielzeth. "Eine allgemeine und einfache Methode, um R2 aus verallgemeinerten linearen Mischeffektmodellen zu erhalten." Methods in Ecology and Evolution 4.2 (2013): 133 & ndash; 142.

Johnson, Paul CD. "Erweiterung des R2GLMM von Nakagawa & Schielzeth auf Modelle mit zufälligen Steigungen." Methoden in Ökologie und Evolution (2014).

Die Methode is kann auch mit der Funktion r.squaredGLMM im MuMIn-Paket implementiert werden, die die folgende Beschreibung der Methode enthält.

Für Modelle mit gemischten Effekten kann in zwei Typen eingeteilt werden. Der Rand R 2 stellt die Varianz dar, die durch feste Faktoren erklärt wird, und ist definiert als: Bedingung wird als Varianz interpretiert, die sowohl durch feste als auch zufällige Faktoren (dh das gesamte Modell) erklärt wird, und wird gemäß der Gleichung berechnet: wobei die Varianz der festen ist, und ist die Summe aller Varianzkomponenten (Gruppe, Individuum usw.),R2R2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2ist die Varianz aufgrund additiver Dispersion und ist die verteilungsspezifische Varianz. σd2

In meiner Analyse betrachte ich longitudinale Daten und interessiere mich hauptsächlich für die Varianz, die durch die festen Effekte im Modell erklärt wird

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
quelle
Ich habe Ihren Beitrag bearbeitet, um die Mathjax-Formatierung zu verwenden. Bitte überprüfen Sie noch einmal, dass ich nicht versehentlich Fehler eingeführt habe.
Sycorax sagt Reinstate Monica
Ihrer Frage fehlt nach meinem Verständnis eine echte Frage. Können Sie klarstellen, was Sie wollen? Eine Empfehlung, was zu verwenden ist?
Henrik
Hallo @Henrik, ich war an einer Empfehlung interessiert, was man verwenden soll, ja, aber auch allgemeiner, wie die verschiedenen Methoden miteinander verglichen werden und welche Unterschiede bestehen.
Andrews
Ich glaube, die ursprünglichen und obigen Gleichungen sind falsch. Dies liegt nicht an den Änderungen von @ user777. Die beiden Terme rechts sollten im Nenner stehen. Sieh das .
Cyrille
Dieser Fehler wurde wahrscheinlich dadurch verursacht, dass in der MuMIn-Paketdokumentation die schließenden Klammern fehlten .
Cyrille

Antworten:

11

R2lme4nlme

Ich muss zugeben, dass ich ein bisschen nervös bin, wenn Leute vom "R2 für GLMMs" sprechen. R2 für ein lineares Modell ist gut definiert und hat viele wünschenswerte Eigenschaften. Für andere Modelle kann man andere Größen definieren, die einige, aber nicht alle dieser Eigenschaften widerspiegeln. Dabei wird jedoch ein R2 nicht in dem Sinne berechnet, dass eine Zahl mit allen Eigenschaften erhalten wird, die das R2 für lineare Modelle hat. Normalerweise gibt es verschiedene Möglichkeiten, wie eine solche Menge definiert werden kann. Insbesondere für GLMs und GLMMs müssen Sie zunächst definieren, was Sie unter "Antwortvarianz" verstehen, bevor Sie den "Anteil der erklärten Antwortvarianz" definieren können.

Die Verwirrung darüber, was R2 oder Freiheitsgrade einer der anderen mit linearen Modellen verbundenen Größen ausmacht, wie sie auf andere Modelle angewendet werden, rührt daher, dass die Formel mit dem Konzept verwechselt wird. Obwohl Formeln aus Modellen abgeleitet werden, beinhaltet die Ableitung häufig eine ziemlich ausgefeilte Mathematik. Um eine möglicherweise verwirrende Ableitung zu vermeiden und einfach auf den Punkt zu kommen, ist es einfacher, die Formeln zu präsentieren. Aber die Formel ist nicht das Konzept. Das Verallgemeinern einer Formel entspricht nicht dem Verallgemeinern des Konzepts. Und diese Formeln werden in der Praxis fast nie verwendet, insbesondere nicht für verallgemeinerte lineare Modelle, Varianzanalysen und Zufallseffekte. Ich habe ein "Meta-Theorem", das besagt, dass die einzige Größe, die tatsächlich nach den in den Einführungstexten angegebenen Formeln berechnet wird, der Stichprobenmittelwert ist.

Es mag den Anschein haben, als wäre ich ein mürrischer alter Mann, und vielleicht auch, aber die Gefahr besteht darin, dass die Leute erwarten, dass eine "R2-ähnliche" Größe alle Eigenschaften eines R2 für lineare Modelle hat. Das geht nicht. Es gibt keine Möglichkeit, alle Eigenschaften auf ein viel komplizierteres Modell wie ein GLMM zu verallgemeinern.

Ich war einmal im Komitee und habe einen Vorschlag für eine Doktorarbeit geprüft. Kandidatur. Der Vorschlag bestand darin, 9 verschiedene Formeln zu untersuchen, die als Methoden zur Berechnung eines R2 für ein nichtlineares Regressionsmodell in Betracht gezogen werden könnten, um zu entscheiden, welche "die beste" ist. Dies würde natürlich durch eine Simulationsstudie mit nur wenigen unterschiedlichen Modellen und nur wenigen unterschiedlichen Sätzen von Parameterwerten für jedes erfolgen. Mein Vorschlag, dass dies eine völlig bedeutungslose Übung sei, wurde nicht sehr begrüßt.

Robert Long
quelle
10

R2R2

  • Lahuis, D et al. (2014) erläuterte Varianzmessungen für mehrstufige Modelle. Methoden der Organisationsforschung.

Bildbeschreibung hier eingeben

R2R2R2R2R2R2(OLS) hatten die geringsten Standardabweichungen im Random-Slope-Modell. Im Allgemeinen war Formula kein effizienter Schätzer.

Andrews
quelle