Die Interpretation der Modellmittelung führt zu R.

11

Ich versuche zu verstehen und zu wissen, was ich aus meiner Analyse einiger Daten mithilfe der Modellmittelung in R berichten soll.

Ich verwende das folgende Skript, um die Auswirkung der Messmethode auf eine bestimmte Variable zu analysieren: Hier ist der Datensatz: https://www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv?dl=0

Zu montierendes Modell:

LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4)

Bagger volles Modell

require(MuMIn)
d=dredge(LM.1)
print(d)
coefficients(d)

Erhalten Sie zusammenfassende Informationen aller Modelle, um Parameterschätzungen zu erhalten

summary(model.avg(d))

Ich weiß, dass entweder alle Modelle gemittelt werden können (vollständige Modellmittelung) oder nur eine Teilmenge davon (bedingte Mittelung). Nun möchte ich wissen: Wann ist es besser, die vollständige oder bedingte Mittelung zu verwenden, um Schlussfolgerungen zu ziehen? Was soll ich für einen wissenschaftlichen Artikel darüber berichten? Was bedeutet genau den Z-Wert und das zugehörige p für eine Modellmittelungssituation?

Um es einfacher zu machen, meine Fragen zu visualisieren. Hier ist die Ergebnistabelle,

> summary(model.avg(d))# now, there are effects

Call:
model.avg(object = d)

Component model call: 
gls(model = VMT ~ <8 unique rhs>, data = VMT4, method = ML, na.action = 
 na.fail)

Component models: 
       df  logLik   AICc delta weight
1       4 -247.10 502.52  0.00   0.34
12      5 -246.17 502.83  0.31   0.29
13      5 -246.52 503.52  1.01   0.20
123     6 -245.60 503.88  1.36   0.17
(Null)  2 -258.62 521.33 18.81   0.00
3       3 -258.38 522.95 20.43   0.00
2       3 -258.60 523.39 20.88   0.00
23      4 -258.36 525.05 22.53   0.00

Term codes: 
method    sex   turn 
     1      2      3 

Model-averaged coefficients:  
(full average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)            42.63521    0.37170     0.37447 113.856  < 2e-16 ***
methodlight chamber    -1.05276    0.36098     0.36440   2.889  0.00386 ** 
methodthermal gradient -1.80567    0.36103     0.36445   4.955    7e-07 ***
sex2                    0.19023    0.29403     0.29548   0.644  0.51970    
turn                    0.05005    0.10083     0.10141   0.494  0.62165    

(conditional average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)             42.6352     0.3717      0.3745 113.856  < 2e-16 ***
methodlight chamber     -1.0528     0.3609      0.3643   2.890  0.00386 ** 
methodthermal gradient  -1.8058     0.3608      0.3642   4.958  7.1e-07 ***
sex2                     0.4144     0.3089      0.3119   1.328  0.18402    
turn                     0.1337     0.1264      0.1276   1.047  0.29492    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Relative variable importance: 
                     method sex  turn
Importance:          1.00   0.46 0.37
N containing models:    4      4    4
Agus Camacho
quelle

Antworten:

5

Siehe Grueber et al. 2011, "Multimodell-Inferenz in Ökologie und Evolution: Herausforderungen und Lösungen" Evolutionary Biology 24: 699-711.

Es hängt wirklich von den Zielen ab, ob Sie vollständige oder bedingte Daten verwenden möchten. In meinem Bereich würden wir Kriterien wie AICC verwenden, um zu bestimmen, welche Modelle am meisten unterstützt werden, und diese dann als Ihre bedingte Teilmenge verwenden. Diese Informationen würden dann gemeldet. Zum Beispiel befinden sich Ihre ersten vier Modelle alle innerhalb von 2 AIC-Einheiten voneinander, sodass sie alle in Ihrer Teilmenge enthalten sind. Die anderen sind weit draußen (höherer AIC), sodass das Einbeziehen von Informationen die Qualität Ihrer Beta-Schätzungen tatsächlich beeinträchtigen würde.

AUDeer
quelle
2
Selbst in Ihrem vorgeschlagenen Beispiel gibt es einige Begriffe, die in vielleicht zwei der vier "besten" Modelle vorkommen. Nehmen Sie einen Mittelwert aus diesen beiden Koeffizientenwerten oder aus den beiden Werten und zwei Nullwerten für die beiden Modelle, bei denen sie nicht angezeigt werden?
user2390246
5

Ich denke, die Prämisse über den Unterschied zwischen dem vollständigen und dem bedingten Durchschnitt ist falsch. Eins ist ein Durchschnitt, der Nullen (voll) enthält, und eins enthält keine Nullen (bedingt). aus der Hilfedatei für den Befehl model.avg ():

Hinweis

Der Durchschnitt der "Teilmenge" (oder "bedingten") wird nur über die Modelle gemittelt, in denen der Parameter angezeigt wird. Alternativ wird beim "vollen" Durchschnitt davon ausgegangen, dass in jedem Modell eine Variable enthalten ist. In einigen Modellen wird der entsprechende Koeffizient (und seine jeweilige Varianz) jedoch auf Null gesetzt. Im Gegensatz zum "Teilmengen-Durchschnitt" besteht keine Tendenz, den Wert von Null wegzuspannen. Der "volle" Durchschnitt ist eine Art Schrumpfungsschätzer und für Variablen mit einer schwachen Beziehung zur Antwort sind sie kleiner als "Teilmengen" -Schätzer.

Wenn Sie nur eine Teilmenge von Modellen verwenden möchten (z. B. basierend auf Delta-AIC), verwenden Sie das Teilmengenargument in model.avg (). Sie erhalten weiterhin bedingte und vollständige Schätzungen, solange in einigen der enthaltenen Modelle einige Variablen fehlen, die andere haben.

Joe Sapp
quelle
Ja. Genau. Das ist die richtige Interpretation.
Ökologe1234