Große Uneinigkeit in der Steigungsschätzung, wenn Gruppen in einem gemischten Modell als zufällig oder fest behandelt werden

18

Ich verstehe, dass wir Modelle mit zufälligen Effekten (oder gemischten Effekten) verwenden, wenn wir glauben, dass einige Modellparameter über einen Gruppierungsfaktor zufällig variieren. Ich möchte ein Modell xanpassen, bei dem die Reaktion über einen Gruppierungsfaktor normalisiert und zentriert (nicht perfekt, aber ziemlich nahe beieinander) ist, aber eine unabhängige Variable in keiner Weise angepasst wurde. Dies führte mich zu dem folgenden Test (unter Verwendung von erfundenen Daten), um sicherzustellen, dass ich den gesuchten Effekt finden würde, wenn er tatsächlich vorhanden wäre. Ich habe ein Modell mit gemischten Effekten mit einem zufälligen Schnittpunkt (über die durch definierten Gruppen hinweg f) und ein zweites Modell mit festen Effekten mit dem Faktor f als festem Effektprädiktor ausgeführt. Ich habe das R-Paket lmerfür das Mixed-Effect-Modell und die Basisfunktion verwendetlm()für das Modell mit festem Effekt. Es folgen die Daten und die Ergebnisse.

Beachten Sie, dass yunabhängig von der Gruppe die Werte um 0 variieren. Dies xvariiert konsistent yinnerhalb der Gruppe, variiert jedoch zwischen den Gruppen erheblich mehr alsy

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

Wenn Sie an der Arbeit mit den Daten interessiert sind, wird dput()Folgendes ausgegeben:

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

Anpassen des Mixed-Effects-Modells:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

Ich stelle fest, dass die Intercept-Varianz-Komponente auf 0 geschätzt wird und für mich xkein signifikanter Prädiktor ist y.

Als nächstes passe ich das feste Effektmodell fals Prädiktor anstelle eines Gruppierungsfaktors für einen zufälligen Schnittpunkt an:

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

Jetzt merke ich, dass, wie erwartet, xein signifikanter Prädiktor für ist y.

Was ich suche, ist Intuition in Bezug auf diesen Unterschied. Inwiefern ist mein Denken hier falsch? Warum erwarte ich fälschlicherweise, xin beiden Modellen einen signifikanten Parameter zu finden, aber sehe ihn tatsächlich nur im Festeffektmodell?

ndoogan
quelle
Ich möchte nur kurz darauf hinweisen, dass etwas mit dem Zufallseffekt-Setup nicht stimmt, da die Abweichung in der RE = 0 ist (dh die RE erklärt keine Abweichung). Angesichts dessen ist es nicht verwunderlich, dass die xVariable nicht signifikant ist. Ich vermute, das ist das gleiche Ergebnis (Koeffizienten und SE), das Sie zum Laufen gebracht hätten lm(y~x,data=data). Sie haben keine Zeit mehr für die Diagnose, wollten aber darauf hinweisen.
Affine
@Affine das ist ein guter Punkt. Ich schätze, mein Interesse liegt hier darin, warum der Zufallseffekt keine Variation im Achsenabschnitt erfasst hat. Wenn Sie oder jemand einen Kommentar zu einem späteren Zeitpunkt hat, begrüße ich es! Vielen Dank.
ndoogan

Antworten:

31

Hier ist einiges los. Dies sind interessante Themen, aber es wird eine Menge Zeit / Raum brauchen, um alles zu erklären.

Zunächst wird dies alles viel einfacher zu verstehen, wenn wir die Daten zeichnen . Hier ist ein Streudiagramm, in dem die Datenpunkte nach Gruppen gefärbt sind. Zusätzlich haben wir eine separate gruppenspezifische Regressionslinie für jede Gruppe sowie eine einfache Regressionslinie (ignorieren von Gruppen) in Fettdruck:

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

Daten

Das Modell mit fester Wirkung

xxxxxxxyt

xxxlm()

Das gemischte Modell

xxxx

x

Hier sind die Koeffizienten für das einfache Regressionsmodell (die gestrichelte fette Linie im Diagramm):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

Wie Sie sehen, sind die Koeffizienten hier identisch mit denen, die wir im gemischten Modell erhalten haben. Dies ist genau das, was wir erwartet hatten, da wir, wie Sie bereits bemerkt haben, eine Varianz von 0 für die zufälligen Abschnitte haben und die zuvor erwähnte Korrelation zwischen Verhältnissen und Klassen herstellen einfache lineare Regressionsschätzungen, und wie wir im Diagramm sehen können, ist die Steigung hier weit weniger ausgeprägt als die innerhalb des Clusters liegenden Steigungen.

Dies bringt uns zu einer letzten konzeptionellen Frage ...

Warum wird die Varianz der zufälligen Abschnitte auf 0 geschätzt?

Die Antwort auf diese Frage könnte ein wenig technisch und schwierig werden, aber ich werde versuchen, sie so einfach und technisch wie möglich zu halten (für uns beide!). Aber es wird vielleicht noch ein bisschen langatmig sein.

Ich habe vorhin den Begriff der klasseninternen Korrelation erwähnt. Dies ist eine andere Art, über die Abhängigkeit in nachzudenkeny(oder genauer gesagt die Fehler des Modells), die durch die Clusterstruktur hervorgerufen werden. Die klasseninterne Korrelation gibt an, wie ähnlich im Durchschnitt zwei Fehler aus demselben Cluster sind, relativ zur durchschnittlichen Ähnlichkeit von zwei Fehlern, die von einer beliebigen Stelle im Dataset stammen (dh sich möglicherweise in demselben Cluster befinden oder nicht). Eine positive klasseninterne Korrelation zeigt, dass Fehler desselben Clusters sich eher ähneln. Wenn ich einen Fehler aus einem Cluster zeichne und dieser einen hohen Wert hat, kann ich mit hoher Wahrscheinlichkeit davon ausgehen, dass der nächste Fehler, den ich aus demselben Cluster zeichne, ebenfalls einen hohen Wert hat. Obwohl etwas seltener, können Korrelationen innerhalb einer Klasse auch negativ sein. Zwei Fehler, die aus demselben Cluster stammen, sind weniger ähnlich (dh im Wert weiter voneinander entfernt), als dies normalerweise für den gesamten Datensatz zu erwarten wäre.

Das gemischte Modell, das wir betrachten, verwendet nicht die Intra-Class-Korrelationsmethode zur Darstellung der Abhängigkeit in den Daten. Stattdessen beschreibt es die Abhängigkeit in Bezug auf Varianzkomponenten . Dies ist alles in Ordnung, solange die klasseninterne Korrelation positiv ist. In diesen Fällen kann die klasseninterne Korrelation leicht als Varianzkomponente geschrieben werden, und zwar als das zuvor erwähnte Verhältnis der zufälligen Schnittvarianz zur Gesamtvarianz. (Siehe die Wiki-Seite zur klasseninternen KorrelationWeitere Informationen hierzu.) Aber leider haben Varianz-Komponenten-Modelle Schwierigkeiten, mit Situationen umzugehen, in denen eine negative Korrelation zwischen Klassen besteht. Das Schreiben der klasseninternen Korrelation in Bezug auf die Varianzkomponenten beinhaltet das Schreiben als Varianzanteil, und Anteile können nicht negativ sein.

yyyWährend Fehler, die aus verschiedenen Clustern stammen, tendenziell einen moderateren Unterschied aufweisen.) Ihr gemischtes Modell führt also das aus, was in der Praxis gemischte Modelle in diesem Fall häufig tun: Es gibt Schätzungen, die mit einer negativen Korrelation innerhalb einer Klasse übereinstimmen wie es aufbringen kann, aber es stoppt bei der unteren Grenze von 0 (diese Einschränkung wird normalerweise in den Modellanpassungsalgorithmus einprogrammiert). Am Ende erhalten wir eine geschätzte zufällige Achsenabschnittsvarianz von 0, was immer noch keine sehr gute Schätzung ist, aber es ist so nah, wie wir es mit dieser Art von Modell mit Varianzkomponenten erreichen können.

Also was können wir tun?

x

x

xxbxxwx

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

xwxbyxxxbt-Statistik ist größer. Dies ist auch nicht überraschend, da die Restvarianz in diesem gemischten Modell weitaus geringer ist, da zufällige Gruppeneffekte einen Großteil der Varianz aufzehren, mit der das einfache Regressionsmodell zu kämpfen hatte.

Schließlich haben wir noch eine Schätzung von 0 für die Varianz der zufälligen Abschnitte aus den Gründen, die ich im vorherigen Abschnitt ausgeführt habe. Ich bin mir nicht sicher, was wir dagegen tun können, zumindest ohne auf eine andere Software umzusteigen lmer(), und ich bin mir auch nicht sicher, inwieweit dies unsere Schätzungen in diesem endgültigen gemischten Modell noch beeinträchtigen wird. Vielleicht kann sich ein anderer Benutzer mit ein paar Gedanken zu diesem Thema melden.

Verweise

  • Bell, A. & Jones, K. (2014). Feste Effekte erklären: Zufällige Effektmodellierung von Zeitreihenquerschnitts- und Paneldaten. Politikwissenschaftliche Forschung und Methoden. PDF
  • Bafumi, J. & Gelman, AE (2006). Anpassung von Mehrebenenmodellen, wenn Prädiktoren und Gruppeneffekte korrelieren. PDF
Jake Westfall
quelle
1
Dies ist eine sehr nachdenkliche und hilfreiche Antwort. Ich bin auf diese Referenzen nicht gestoßen; Ihre Titel scheinen mir an dieser Stelle meiner Erkundung ein Muss zu sein. Ich schulde dir ein Bier!
ndoogan
1
Der Bell & Jones-Schiedsrichter war großartig. Eine Sache, auf die ich gewartet habe und auf die Sie vielleicht eine Ahnung haben, ist, ob sich diese Zwischen-Trennungen leicht auf verallgemeinerte lineare Mischmodelle erstrecken. Es scheint, als müssten sie es tun, aber ich dachte, ich hätte verstanden, dass die Kovariatenzentrierung in einem logistischen Regressionsmodell nicht dasselbe ist wie das bedingte logistische Modell, das ich als binäres Ergebnis analog zum linearen Modell mit festem Effekt betrachte. Irgendwelche Kommentare?
ndoogan
1
Wäre das nicht ein pass marginal Modell erlaubt die negative Abweichung , dass lmeConstraints durch default> = 0 sein? Sehen Sie sich diese Frage und die ausgewählte Antwort an , dh Anpassen einer zusammengesetzten Simmetriekorrelation durch einen glsFit oder eine Einstellung correlation = corCompSymm(form = ~1|f)inlme
FairMiles 10.10.13
1
@FairMiles Vielleicht ... warum probierst du es nicht aus und postest die Ergebnisse in diesem Kommentarthread?
Jake Westfall
3
Nochmals vielen Dank, @JakeWestfall. Ich habe das im Laufe einiger Monate ungefähr dreimal gelesen und es hat jedes Mal auf verschiedene Arten geholfen.
Ndoogan
3

Nach langer Überlegung glaube ich, meine eigene Antwort gefunden zu haben. Ich glaube, ein Ökonometriker würde meine unabhängige Variable als endogen definieren und somit sowohl mit der unabhängigen als auch mit der abhängigen Variablen korrelieren. In diesem Fall werden diese Variablen weggelassen oder nicht beachtet . Ich beobachte jedoch die Gruppierungen, zwischen denen die ausgelassene Variable variieren sollte.

Ich glaube, der Ökonometriker würde ein Modell mit fester Wirkung vorschlagen . Das heißt, ein Modell, das in diesem Fall einen Dummy für jede Gruppierungsebene enthält (oder eine äquivalente Spezifikation, die das Modell so aufbereitet, dass viele Gruppierungsdummies nicht erforderlich sind). Bei einem Modell mit festen Effekten besteht die Hoffnung, dass alle nicht beobachteten und zeitinvarianten Variablen durch Auskonditionierung über Gruppen- (oder über einzelne) Variationen hinweg gesteuert werden können. In der Tat ist das zweite Modell in meiner Frage genau ein Modell mit festen Effekten und gibt als solches die Schätzung an, die ich erwarte.

Ich begrüße Kommentare, die diesen Umstand weiter beleuchten.

ndoogan
quelle