In der Elementarstatistik habe ich gelernt, dass mit einem allgemeinen linearen Modell Beobachtungen unabhängig sein müssen, damit Schlussfolgerungen gültig sind. Wenn Clustering auftritt, kann die Unabhängigkeit möglicherweise nicht länger aufrecht erhalten werden, was zu ungültigen Schlussfolgerungen führt, sofern dies nicht berücksichtigt wird. Eine Möglichkeit, eine solche Clusterbildung zu berücksichtigen, besteht in der Verwendung gemischter Modelle. Ich möchte einen simulierten oder nicht simulierten Beispieldatensatz finden, der dies klar demonstriert. Ich habe versucht, einen der Beispieldatensätze auf der UCLA-Site zum Analysieren von Clusterdaten zu verwenden
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Wenn ich nichts verpasse, sind diese Ergebnisse so ähnlich, dass ich nicht denke, dass die Ausgabe von lm()
ungültig ist. Ich habe mir einige andere Beispiele angesehen (z. B. 5.2 vom Bristol University Center für Multilevel-Modellierung ) und festgestellt, dass die Standardfehler auch nicht sehr unterschiedlich sind (ich bin nicht an den Zufallseffekten selbst aus dem gemischten Modell interessiert, aber es ist erwähnenswert, dass Der ICC aus der gemischten Modellausgabe beträgt 0,42.
Meine Fragen lauten also: 1) Unter welchen Bedingungen unterscheiden sich die Standardfehler beim Clustering erheblich, und 2) kann jemand ein Beispiel für einen solchen Datensatz liefern (simuliert oder nicht).
quelle
Antworten:
Zuallererst haben Sie Recht, dass dieser Datensatz möglicherweise nicht der beste ist, um das gemischte Modell zu verstehen. Aber schauen wir uns zuerst an, warum
Sie sehen, dass Sie 310 Beobachtungen und 187 Gruppen haben, von denen 132 nur eine Beobachtung haben. Dies bedeutet nicht, dass wir keine mehrstufige Modellierung verwenden sollten, sondern nur, dass wir nicht sehr unterschiedliche Ergebnisse erhalten, wie Sie angegeben haben.
Mehrstufige Modellierungsmotivation
Die Motivation zur Verwendung von Mehrebenenmodellen beruht auf dem Entwurf selbst und nicht nur auf den Ergebnissen der durchgeführten Analyse. Das häufigste Beispiel ist natürlich, dass Sie mehrere Beobachtungen von Einzelpersonen machen. Um die Situation jedoch besser zu verstehen, sollten Sie Personen aus verschiedenen Ländern auf der ganzen Welt nach ihrem Einkommen fragen. Die besten Beispiele sind also solche, die eine große Heterogenität aufweisen, da die Verwendung von Clustern, die im Prüfungsergebnis homogen sind, natürlich keinen großen Unterschied macht.
Beispiel
y
x
Wenn Sie also ein lineares Modell ausführen, erhalten Sie
und Sie schließen daraus, dass
x
keine statistische Auswirkung aufy
. Sehen Sie, wie groß der Standardfehler ist. Es wird jedoch ein Zufalls-Intercept-Modell ausgeführtSie sehen, um wie viel sich der Standardfehler der Schätzung geändert hat. Wenn wir uns den Zufallseffekt ansehen, sehen wir, wie die Variabilität zerlegt wurde - der größte Teil der Variabilität des Einkommens ist zwischen den Ländern und innerhalb der Länder haben die Menschen ähnlichere Einkommen. In einfachen Worten, was hier passiert ist, ist, dass nicht die Clusterbildung berücksichtigt wird, deren Effekt
x
"verloren geht" (wenn wir diese Art von Begriff verwenden können), sondern dass die Variabilität zerlegt wird, die Sie finden, was Sie tatsächlich erhalten sollten.quelle