Was ist der grundlegende Unterschied zwischen diesen beiden Regressionsmodellen?

Angenommen, ich habe bivariate Antworten mit signifikanter Korrelation. Ich versuche, die beiden Möglichkeiten zur Modellierung dieser Ergebnisse zu vergleichen. Eine Möglichkeit besteht darin, den Unterschied zwischen den beiden Ergebnissen zu modellieren: Eine andere Möglichkeit besteht darin, sie zu verwenden oder zu modellieren:

(y_{i 2} - y_{i 1} = β_{0} + X^{'} β)

$(y_{i2}-y_{i1}=\beta_0+X'\beta)$ glsgee

(y_{i j} = β_{0} + time + X^{'} β)

$(y_{ij}=\beta_0+\text{time}+X'\beta)$

Hier ist ein Beispiel:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

Was ist der grundlegende Unterschied zwischen fit1und fit2? Und zwischen fit2und fit3, wenn sie so nahe an den Werten und Schätzungen liegen? $p$

r regression model-selection David Z.
quelle

Der Unterschied zwischen fit1 und fit3 wird manchmal als Lord's Paradox bezeichnet. Hier finden Sie eine Diskussion (warum sich die Schätzungen zwischen den Modellen nicht ändern) und einen Verweis auf einen Artikel von Paul Allison, stats.stackexchange.com/a/15759/1036 . Eine andere Referenz ist

Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.

Andy W

Zunächst werde ich in meiner Antwort noch ein viertes Modell für die Diskussion vorstellen:

fit1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)

Teil 0
Der Unterschied zwischen fit1 und fit1.5 lässt sich am besten als Unterschied zwischen einem eingeschränkten Unterschied und einem optimalen Unterschied zusammenfassen.

Ich werde dies anhand eines einfacheren Beispiels erklären als das oben angegebene. Beginnen wir mit fit1.5. Eine einfachere Version des Modells wäre . Wenn wir eine OLS-Schätzung erhalten, findet es natürlich die "optimale" Wahl für . Und obwohl es seltsam erscheint, als solches zu schreiben, könnten wir die Formel als umschreiben. Wir können uns dies als den "optimalen" Unterschied zwischen den beiden Variablen vorstellen.

y_{2} = b_{0} + b_{1} \cdot x + b_{2} \cdot y_{1}

$y_2 = b_0 + b_1·x + b_2·y_1$

b_{2}

$b_2$

y_{2} - b_{2} \cdot y_{1} = b_{0} + b_{1} \cdot x

$y_2 - b_2·y_1 = b_0 + b_1·x$

y

$y$

Wenn wir uns nun entscheiden, zu beschränken , wird die Formel / das Modell zu was nur die (eingeschränkte) Differenz ist. $b_2=1$

y_{2} - y_{1} = b_{0} + b_{1} \cdot x

$y_2 - y_1 = b_0 + b_1·x$

Beachten Sie, dass in der obigen Demonstration, wenn Sie eine dichotome Variable und eine Pre-Test- und eine Post-Test-Score-Paarung sein lassen, das eingeschränkte Differenzmodell nur der unabhängige Stichproben- Test für den Score-Gewinn ist Das optimale Differenzmodell wäre der ANCOVA-Test, wobei die Ergebnisse vor dem Test als Kovariaten verwendet werden. $x$ $y_1$ $y_2$ $t$

Teil 1
Das Modell für fit2 kann am besten auf ähnliche Weise wie der oben verwendete Differenzansatz betrachtet werden. Obwohl dies eine übermäßige Vereinfachung ist (da ich die Fehlerterme ), könnte das Modell als wobei für die Werte und für die Werte . Hier ist die Vereinfachung ... hier schreiben wir Anders geschrieben, . Während das Modell fit1.5 als Wert hatte, um den optimalen Unterschied für die OLS-Analyse zu erzielen , ist hier

y = b_{0} + b_{1} \cdot x + b_{2} \cdot t

$y = b_0 + b_1 · x + b_2 · t$

t = 0

$t=0$

y_{1}

$y_1$

t = 1

$t=1$

y_{2}

$y_2$

\begin{aligned} y_{1} & = b_{0} + b_{1} \cdot x \\ y_{2} & = b_{0} + b_{1} \cdot x + b_{2} \end{aligned}

$\begin{align}y_1 & = b_0 + b_1 · x \\ y_2 & = b_0 + b_1 · x + b_2\end{align}$

y_{2} - y_{1} = b_{2}

$y_2 - y_1 = b_2$

b_{2}

$b_2$

b_{2}

$b_2$ ist im Wesentlichen nur die durchschnittliche Differenz zwischen den Werten (nach Kontrolle der anderen Kovariaten).

y

$y$

Teil 2
Was ist also der Unterschied zwischen den Modellen fit2 und fit3 ... eigentlich sehr wenig. Das fit3-Modell berücksichtigt zwar die Korrelation in Bezug auf Fehler, dies ändert jedoch nur den Schätzprozess, und daher sind die Unterschiede zwischen den beiden Modellausgaben minimal (über die Tatsache hinaus, dass das fit3 den autoregressiven Faktor schätzt).

Teil 2.5
Und ich werde noch ein weiteres Modell in diese Diskussion einbeziehen

fit4 <- lmer (y ~ Zeit + x1 + x2 + (1 | id), Daten = df.long)

Dieses Modell mit gemischten Effekten führt eine etwas andere Version des autoregressiven Ansatzes aus. Wenn wir den Zeitkoeffizienten in die zufälligen Effekte einbeziehen würden, wäre dies vergleichbar mit der Berechnung der Differenz zwischen den für jedes Subjekt. (Aber das wird nicht funktionieren ... und das Modell läuft nicht.) $y$

Gregg H.
quelle

Was ist der grundlegende Unterschied zwischen diesen beiden Regressionsmodellen?

Antworten: