Ich habe Daten aus einem Umfrageexperiment, bei dem die Befragten zufällig einer von vier Gruppen zugeordnet wurden:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Während sich die drei Behandlungsgruppen in Bezug auf den angewendeten Stimulus geringfügig unterscheiden, ist der Hauptunterschied, den ich interessiere, zwischen der Kontroll- und Behandlungsgruppe. Also habe ich eine Dummy-Variable definiert Control
:
> summary(df$Control)
TRUE FALSE
59 191
In der Umfrage wurden die Befragten (unter anderem) gebeten, auszuwählen, welche von zwei Dingen sie bevorzugten:
> summary(df$Prefer)
A B NA's
152 93 5
Nachdem die Befragten einen von ihrer Behandlungsgruppe bestimmten Reiz erhalten hatten (und keinen, wenn sie in der Kontrollgruppe waren), wurden sie gebeten, zwischen denselben beiden Dingen zu wählen:
> summary(df$Choice)
A B
149 101
Ich möchte wissen, ob die Zugehörigkeit zu einer der drei Behandlungsgruppen einen Einfluss auf die Auswahl hatte, die die Befragten in dieser letzten Frage getroffen haben. Meine Hypothese ist, dass die Befragten, die eine Behandlung erhalten haben, mit größerer Wahrscheinlichkeit wählen A
als B
.
Da ich mit kategorialen Daten arbeite, habe ich mich für eine Logit-Regression entschieden. Da die Befragten nach dem Zufallsprinzip ausgewählt wurden, habe ich den Eindruck, dass ich nicht unbedingt auf andere Variablen (z. B. demografische Merkmale) Einfluss nehmen muss. Daher habe ich diese für diese Frage weggelassen. Mein erstes Modell war einfach das Folgende:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Ich habe den Eindruck, dass der Abschnitt, der statistisch signifikant ist, keine interpretierbare Bedeutung hat. Ich dachte vielleicht, dass ich einen Interaktionsbegriff wie folgt einfügen sollte:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Nun hat der Befragtenstatus wie in einer Behandlungsgruppe den erwarteten Effekt. War dies ein gültiger Satz von Schritten? Wie kann ich den Interaktionsbegriff interpretieren ControlFALSE:PreferA
? Sind die anderen Koeffizienten noch die Log-Quoten?
quelle
Antworten:
Ich gehe davon aus, dass PreferA = 1 ist, wenn man A und 0 bevorzugt, und dass ControlFALSE = 1 ist, wenn es behandelt wird, und 0 ist, wenn es kontrolliert wird.
So ist die potenzierte konstant Sie die Baseline gibt Chancen , geben die potenzierte Koeffizienten der Haupteffekte Sie die Odds Ratios , wenn die anderen Variablen gleich 0, und die potenzierte Koeffizient der Interaktionsterme sagt Ihnen das Verhältnis von Wich die Odds Ratio ändert .
quelle
ControlFALSE
im ersten Modell einen hohen p-Wert und im zweiten Modell einen relativ niedrigen gibt. Als Sie Ihre Antwort auf meine andere Frage auf diesen speziellen Fall anwendeten, sagten Sie, dass dies passieren könnte, wennControl
sich dies negativ auf eine GruppePrefer
und positiv auf die andere auswirken würde.ControlFALSE
ersten Modells ist die Wirkung der Behandlung sowohl für diejenigen, die zuvor A bevorzugten, als auch für diejenigen, die dies nicht taten, während die Wirkung des zweiten Modells nur die Wirkung der Behandlung für diejenigen ist, die A zuvor nicht bevorzugten. Ob das in Ordnung ist oder nicht, ist keine statistische Frage, aber ob das inhaltlich sinnvoll ist oder nicht.Ich fand dieses Papier auch hilfreich bei der Interpretation der Interaktion in der logistischen Regression:
Chen, JJ (2003). Vermittlung komplexer Informationen: Interpretation statistischer Interaktionen in multiplen logistischen Regressionsanalysen . American Journal of Public Health , 93 (9), 1376-1377.
quelle
Wenn ich versuche, Interaktionen in logistischen Regressionen zu interpretieren, ist es meine eigene Präferenz, die vorhergesagten Wahrscheinlichkeiten für jede Kombination von kategorialen Variablen zu betrachten. In Ihrem Fall wären dies nur 4 Wahrscheinlichkeiten:
Wenn ich kontinuierliche Variablen habe, schaue ich normalerweise auf den vorhergesagten Wert im Median, 1. und 3. Quartil.
Obwohl dies nicht direkt mit der Interpretation der einzelnen Koeffizienten zusammenhängt, kann ich (und meine Kunden) oft auf klare Weise sehen, was vor sich geht.
quelle