Angenommen, ich würde gerne auf die Effektgröße und Signifikanz zwischen Ergebnis Y und Variable X zugreifen, die durch den Confounder Z angepasst wurden .
Meine Frage ist, ob es einen Unterschied gibt, um die Effektgröße und Signifikanz von X zwischen dem folgenden Szenario zu bestimmen .
- Setzen Sie Variable und Confounder in einem linearen Regressionsmodell zusammen. Dies bedeutet, dass Sie einfach das Regressionsmodell von Y ~ X + Z anpassen und dann den Koeffizienten und seinen p-Wert von X berechnen .
- Ermitteln Sie den Rest R aus Y ~ Z und passen Sie dann das Regressionsmodell von R ~ X an . Berechnen Sie dann den Koeffizienten und seinen p-Wert von X (aus R ~ X).
Ich lerne den Confounder von hier .
Bearbeiten -----
Ich schätze die Antwort von @Gordon Smyth. In einer Simulationsstudie (Code unten), in der ich die Falschentdeckungsrate von Methode1, Methode2 und Methode3 aus Gordon Smyths Antwort verglichen habe, stellte ich überraschenderweise fest, dass Methode2 eine ziemlich niedrige Falsch-Positiv-Rate aufweist.
Ich verstehe, dass Methode 1 "Lehrbuch" korrekt ist. Ich frage mich, was genau mit der Methode2 logisch falsch ist. Außerdem "Alle Modelle sind falsch, aber einige sind nützlich".
p1 = p2 = p3 = c()
i=0
while(i<10000){
y = rnorm(10)
x = rnorm(10)
c = rnorm(10)
# method 1
p1[i] = summary(lm(y~x + c))$coefficients[2,4]
# method 2
p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
# method 3
p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]
i = i+1
}
# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623
quelle
Antworten:
Sie müssen sowohl X als auch Y für den Confounder anpassen
Der erste Ansatz (unter Verwendung multipler Regression) ist immer korrekt. Ihr zweiter Ansatz ist nicht korrekt, wie Sie es angegeben haben, kann aber mit einer geringfügigen Änderung nahezu korrekt gemacht werden. Um den zweiten Ansatz richtig zu machen, müssen Sie sowohl als auch X getrennt auf Z zurückführen . Ich mag schreiben Y . Z für die Reste aus der Regression von Y auf Z und X . Z für die Reste aus der Regression von X und Z . Wir können Y interpretieren . Z als Y angepasst für Z (wie IhrY. X. Z. Y.. Z. Y. Z. X.. Z. X. Z. Y.. Z. Y. Z. ) und X . Z wie X eingestellt für Z . Sie können dann Y zurückbilden . Z an X . Z .R. X.. Z. X. Z. Y.Z X.Z
Mit dieser Änderung ergeben die beiden Ansätze den gleichen Regressionskoeffizienten und die gleichen Residuen. Der zweite Ansatz berechnet jedoch die verbleibenden Freiheitsgrade immer noch fälschlicherweise als anstelle von n - 2 (wobei n die Anzahl der Datenwerte für jede Variable ist). Infolgedessen ist die Teststatistik für X aus dem zweiten Ansatz etwas zu groß und der p-Wert ist etwas zu klein. Wenn die Anzahl der Beobachtungen n groß ist, konvergieren die beiden Ansätze und dieser Unterschied spielt keine Rolle.n−1 n−2 n X n
Das hinzugefügte variable Diagramm
Wenn Sie X nicht anpassen, unterschätzen Sie den Regressionskoeffizienten
Ein numerisches Beispiel
Im Gegensatz dazu beträgt bei Ihrer Methode 2 der Regressionskoeffizient nur 0,01:
quelle