Wie interpretiere ich die 'Korrelationen fester Effekte' in meiner glmer Ausgabe?

26

Ich habe folgende Ausgabe:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Alle meine stetigen Variablen (gekennzeichnet durch ein kleines svor dem Variablennamen) sind standardisiert (Z-Scores). seasonist eine kategoriale Variable mit 2 Ebenen (früh und spät) und cropist eine kategoriale Variable mit 3 Ebenen (Mais, Futter und Soja).

Diese Korrelation der festen Effektmatrix verwirrt mich wirklich, da alle Korrelationen das entgegengesetzte Vorzeichen haben, das sie haben, wenn ich die einfachen Regressionen von Variablenpaaren betrachte. Das heißt, die Korrelation der Matrix mit festen Effekten deutet auf eine starke positive Korrelation zwischen diesen Variablen hin, cropforageund sbarewenn tatsächlich eine sehr starke NEGATIVE Korrelation zwischen diesen Variablen besteht, haben Futterpflanzen im Vergleich zu Mais und Soja tendenziell einen viel geringeren Rohboden. Paare von stetigen Variablen haben das gleiche Problem, die Korrelation der festen Effektmatrix besagt, dass alles das Gegenteil von dem ist, was es sein sollte. Könnte dies nur an der Komplexität des Modells liegen (keine einfache Regression)? Könnte es etwas damit zu tun haben, dass die Variablen standardisiert sind?

Vielen Dank.

susie
quelle

Antworten:

27

Die Ausgabe "Korrelation fester Effekte" hat nicht die intuitive Bedeutung, die die meisten ihr zuschreiben würden. Insbesondere geht es nicht um die Korrelation der Variablen (als OP-Hinweise). Es geht in der Tat um die erwartete Korrelation der Regressionskoeffizienten. Dies kann zwar auf Multikollinearität hindeuten, muss aber nicht. In diesem Fall heißt es, dass, wenn Sie das Experiment erneut durchgeführt haben und der Koeffizient für cropforagekleiner geworden ist, dies wahrscheinlich auch der Koeffizient von wäre sbare.

Zum Teil unterdrückt sein Buch "Analysieren von Sprachdaten: Eine praktische Einführung in die Statistik mit R", das sich mit lme4 Baayen befasst, diesen Teil der Ausgabe und erklärt ihn nur in besonderen Fällen für nützlich. Hier ist eine Listserv-Nachricht, in der Bates selbst beschreibt, wie dieser Teil der Ausgabe interpretiert wird:

Es ist eine ungefähre Korrelation des Schätzers der festen Effekte. (Ich füge das Wort "ungefähr" ein, weil ich sollte, aber in diesem Fall ist die Annäherung sehr gut.) Ich bin nicht sicher, wie ich es besser erklären kann. Angenommen, Sie haben eine MCMC-Stichprobe aus den Parametern im Modell entnommen, und Sie würden erwarten, dass die Stichprobe der Parameter mit festen Effekten eine Korrelationsstruktur wie diese Matrix anzeigt.

russellpierce
quelle
3
Es tut mir leid, dies wird wahrscheinlich eine dumme Frage sein, aber warum ist es dann wichtig, diese Korrelation zu berücksichtigen? Ich meine, in welchen Situationen sollte diese Ausgabe berücksichtigt werden?
Mtao
1
@ Teresa Es hängt davon ab, wofür Sie es verwenden. Wenn Sie sich für die Interpretation interessieren, dann sagt es Ihnen, wie verwirrend zwei Wirkungsquellen sind. Wenn Sie sich für die Vorhersage interessieren, erfahren Sie ein wenig darüber, wie andere Vorhersagemodelle aussehen könnten, und Sie erhalten einen Hinweis darauf, wie sich das Modell ändern könnte, wenn Sie Prädiktoren fallen lassen.
Russellpierce
1
Stellen Sie sich also zum Beispiel vor, ich habe zwei Variablen in dieser Ausgabe mit einer Korrelation von 0,90. In Bezug auf die Interpretation gehe ich davon aus, dass ich eine von ihnen fallen lassen sollte, weil sie "verwirrbar" sind und scheinbar die gleichen Informationen enthalten. Wenn ich eines von ihnen fallen lasse, sollten sich andere Modelle nicht so stark ändern, da sie korrelieren. Stimmt das? Oder interpretiere ich das falsch?
Mtao
3
Wissen Sie, ich glaube, Sie wiederholen, was ich richtig gesagt habe. aber nachdenklich bin ich mir nicht sicher, ob ich recht habe. Wenn Sie eine neue Frage öffnen, können Sie am besten bedient werden. Dadurch erhalten Sie mehr Einblick in Ihre Frage und erhöhen die Wahrscheinlichkeit, dass Sie eine richtige Antwort erhalten.
Russellpierce
1
@russellpierce, danke für diese Antwort. Eine Frage jedoch, ich habe gelernt, dass Multikollinearität auftritt, wenn Prädiktoren miteinander korrelieren. In Ihrer Antwort sagen Sie jedoch, dass es die Korrelation der Regressionskoeffizienten (nicht der Prädiktoren) ist, die für Multikollinearität sprechen kann. Warum nicht einfach die Prädiktoren selbst anstelle der geschätzten Koeffizienten korrelieren?
Ort
0

Wenn Ihre negativen und positiven Korrelationen in ihrem Wert gleich sind und sich nur ihr Vorzeichen unterscheidet, geben Sie die Variable fälschlicherweise ein. Aber ich glaube nicht, dass dies bei Ihnen der Fall ist, da Sie in Bezug auf Statistiken bereits ziemlich fortgeschritten zu sein scheinen.

Die aufgetretene Inkonsistenz kann und wird wahrscheinlich durch Multikollinearität verursacht. Dies bedeutet, wenn einige unabhängige Variablen überlappende Effekte aufweisen oder mit anderen Worten selbst korreliert sind. Beispielsweise kann die Modellierung auf die Variablen "Wachstumsrate" und "Tumorgröße" Multikollinearität verursachen, da es möglich und wahrscheinlich ist, dass größere Tumoren höhere Wachstumsraten aufweisen (bevor sie erkannt werden). Dies kann das Modell verwirren. Und wenn Ihr Modell nur wenige unabhängige Variablen enthält, die miteinander korrelieren, kann die Interpretation der Ergebnisse manchmal recht schwierig werden. Es führt manchmal zu völlig seltsamen Koeffizienten, sogar zu solchen Ausmaßen, dass sich das Vorzeichen einiger Korrelationen umkehrt.

Sie sollten zuerst die Ursachen für Multikollinearität ermitteln, diese behandeln und dann Ihre Analyse erneut durchführen.

Vic
quelle
1
-1; irreführend. OP hat seine Variablen nicht falsch eingegeben und Multikollinearität ist möglicherweise kein Problem. Eine Korrelation zwischen den unverarbeiteten festen Effekten könnte auf diesen Punkt hinweisen, aber das Simpson-Paradoxon könnte es ermöglichen, dass dieser Ansatz Sie in die falsche Richtung führt.
Russellpierce
1
Warum "irreführend"? Welcher Teil war irreführend? Ich sprach sehr deutlich und vermied es, klare Schlussfolgerungen zu ziehen. Was ich gesagt habe, ist in der Tat eines der Multikollinearitätszeichen und sagt uns, wir sollten auch VIFs überprüfen. Aber ich verstehe nicht, woher Sie wissen oder ob Sie sicher sind, dass das OP seine Variablen nicht falsch eingegeben hat und Multikollinearität möglicherweise kein Problem darstellt.
Vic
1
Außerdem hast du meinen Beitrag noch nicht einmal vollständig gelesen (und ihn als irreführend eingestuft). Wenn ja, hätten Sie gesehen, dass ich vorgeschlagen habe, dass das OP VIFs (als offizielle Indikatoren für MultiC) überprüft, um sicherzustellen, ob diese hohen Korrelationen wirklich auf MC hindeuten oder nicht? Trotzdem bin ich offen für das Lernen, solange es frei von Arroganz und persönlichen Angriffen ist.
Vic
1
@Vic: Hab deine Kommentare erst jetzt gesehen. Ich wollte nicht, dass du meine Antwort als persönlichen Angriff ansiehst. Ich war der Meinung, dass es irreführend war, und habe die meines Erachtens richtige Antwort oben gegeben. Ich habe Ihren Beitrag zu diesem Zeitpunkt vollständig gelesen. Ich weiß nicht, ob ich mich in die Kommentare vertieft habe oder nicht. Ich stehe zu meiner Ablehnung.
Russellpierce
1
... aber ich erlaube, dass ich mich in diesem Urteil irre. Es schien jedoch besser zu erklären, warum ich abstimmte, als nur abzustimmen.
Russellpierce
0

Es kann hilfreich sein zu zeigen, dass diese Korrelationen zwischen festen Effekten erhalten werden, indem das "vcov" des Modells in eine Korrelationsmatrix konvertiert wird. Wenn fites sich bei Ihrem LME4-Modell um ein eingebautes Modell handelt, dann

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

und die Korrelationen zwischen festen Effekten sind die nicht diagonalen Einträge.

Ed Merkle
quelle