Angenommen, ich habe ein kontinuierliches Ergebnis y
und zwei faktorielle Prädiktoren mit jeweils zwei Ebenen. Einer meiner kategorialen Prädiktoren drug
kann zwei Ebenen haben ("A" oder "B"), der andere ist smokeYes
. Wenn ich ein Regressionsmodell ausführe, kann ich die Basislinie oder den Referenzpegel drug
entweder als "A" auswählen , wie in model1
:
set.seed(123)
y<-rnorm(100, 100, 10)
drug.ab<-factor(sample(c("A", "B"), 100, T), levels=c("A", "B"))
drug.ba<-factor(drug.ab, levels=c("B", "A"))
smoke<-factor(sample(c("Yes", "No"), 100, T), levels=c("No", "Yes"))
#model1:
coef(summary(lm(y~drug.ab*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.7484158 2.065091 48.7864379 1.465848e-69
drug.abB 0.9030541 2.796146 0.3229639 7.474250e-01
smokeYes -0.8693598 2.632484 -0.3302431 7.419359e-01
drug.abB:smokeYes 0.8709116 3.746684 0.2324487 8.166844e-01
Oder ich kann die Grundlinie auf "B" setzen, wie ich es in model2
:
#model2:
coef(summary(lm(y~drug.ba*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 101.651469922 1.885161 53.9218978856 1.377147e-73
drug.baA -0.903054145 2.796146 -0.3229638818 7.474250e-01
smokeYes 0.001551843 2.666021 0.0005820821 9.995368e-01
drug.baA:smokeYes -0.870911601 3.746684 -0.2324486531 8.166844e-01
Meine Frage ist, warum sich die Schätzung für smokeYes
zwischen model1
und unterscheidet model2
. Warum unterscheidet es sich nicht durch einen Vorzeichenwechsel drug.baA
und den Interaktionsbegriff?
regression
anova
multiple-regression
contrasts
David Z.
quelle
quelle
tapply( y, interaction( drug.ab, smoke) ,mean)
. Eine ausführlichere Erklärung könnte darin bestehen, den Unterschied zwischen Behandlungskontrasten und Summenkontrasten aufzuzeigen.Antworten:
Lassen Sie mich ein einfaches Beispiel für Sie zusammenstellen, um das Konzept zu erläutern. Dann können wir es anhand Ihrer Koeffizienten überprüfen.
Beachten Sie, dass Sie Ihrem Modell durch die Einbeziehung sowohl der Dummy-Variablen "A / B" als auch des Interaktionsterms effektiv die Flexibilität geben, einen anderen Achsenabschnitt (unter Verwendung des Dummys) und eine andere Steigung (unter Verwendung der Interaktion) an die "A" -Daten und anzupassen die "B" -Daten. Im Folgenden spielt es wirklich keine Rolle, ob der andere Prädiktor eine kontinuierliche Variable oder, wie in Ihrem Fall, eine andere Dummy-Variable ist. Wenn ich von "Achsenabschnitt" und "Steigung" spreche, kann dies als "Pegel, wenn der Dummy Null ist" und "Pegeländerung, wenn der Dummy von 0 auf 1 geändert wird" interpretiert werden, wenn Sie dies bevorzugen.x 0 1
Angenommen , die OLS angepassten Modell auf den "A" Daten allein ist y = 12 + 5 x und an den "B" Daten allein ist y = 11 + 7 x . Die Daten könnten folgendermaßen aussehen:y^=12+5x y^=11+7x
Nehmen wir nun an, wir nehmen "A" als Referenzniveau und verwenden eine Dummy-Variable so dass b = 1 für Beobachtungen in Gruppe B, aber b = 0 in Gruppe A. Das angepasste Modell für den gesamten Datensatz istb b=1 b=0
Vergleichen wir das mit Ihrer Ausgabe. In einer ähnlichen Notation wie oben lautet Ihr erstes angepasstes Modell mit der Grundlinie "A":
Ihr zweites Modell mit der Grundlinie "B" ist:
Dies vereinfacht zu:
Ein kurzes bisschen Arithmetik bestätigt, dass dies dasselbe ist wie das zweite angepasste Modell. außerdem sollte jetzt klar sein, welche Koeffizienten in Vorzeichen vertauscht wurden und welche Koeffizienten einfach an die andere Basislinie angepasst wurden!
quelle
Das hat damit zu tun, wie der Achsenabschnitt definiert ist. Im ersten Beispiel wird der Achsenabschnitt als diejenigen definiert, die nicht rauchen und Drogen A haben. Die Raucher, die auch Drogen A haben, haben einen Wert von 100,75 - 0,87 = 99,9, während die Raucher, die Drogen B haben, a haben Wert von 100,75 + 0,90 - 0,87 + 0,87 = 101,65.
Im zweiten Beispiel wird der Achsenabschnitt als diejenigen definiert, die nicht rauchen und Droge B haben. Raucher mit Droge B haben dann einen Wert von 101,65 + 0,001 = 101,65, und Raucher mit Droge A haben einen Wert von 100,65 - 0,90 + 0,001-0,87 = 99,9.
Alles fügt sich also hinzu, es kommt nur darauf an, wie der Achsenabschnitt definiert ist, dh auf welcher Ebene alle Faktoren auf die Referenzkategorie eingestellt sind.
quelle