Interpretieren von Interaktionsbegriffen in der Logit-Regression mit kategorialen Variablen

25

Ich habe Daten aus einem Umfrageexperiment, bei dem die Befragten zufällig einer von vier Gruppen zugeordnet wurden:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Während sich die drei Behandlungsgruppen in Bezug auf den angewendeten Stimulus geringfügig unterscheiden, ist der Hauptunterschied, den ich interessiere, zwischen der Kontroll- und Behandlungsgruppe. Also habe ich eine Dummy-Variable definiert Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

In der Umfrage wurden die Befragten (unter anderem) gebeten, auszuwählen, welche von zwei Dingen sie bevorzugten:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Nachdem die Befragten einen von ihrer Behandlungsgruppe bestimmten Reiz erhalten hatten (und keinen, wenn sie in der Kontrollgruppe waren), wurden sie gebeten, zwischen denselben beiden Dingen zu wählen:

> summary(df$Choice)
  A    B 
149  101 

Ich möchte wissen, ob die Zugehörigkeit zu einer der drei Behandlungsgruppen einen Einfluss auf die Auswahl hatte, die die Befragten in dieser letzten Frage getroffen haben. Meine Hypothese ist, dass die Befragten, die eine Behandlung erhalten haben, mit größerer Wahrscheinlichkeit wählen Aals B.

Da ich mit kategorialen Daten arbeite, habe ich mich für eine Logit-Regression entschieden. Da die Befragten nach dem Zufallsprinzip ausgewählt wurden, habe ich den Eindruck, dass ich nicht unbedingt auf andere Variablen (z. B. demografische Merkmale) Einfluss nehmen muss. Daher habe ich diese für diese Frage weggelassen. Mein erstes Modell war einfach das Folgende:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Ich habe den Eindruck, dass der Abschnitt, der statistisch signifikant ist, keine interpretierbare Bedeutung hat. Ich dachte vielleicht, dass ich einen Interaktionsbegriff wie folgt einfügen sollte:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Nun hat der Befragtenstatus wie in einer Behandlungsgruppe den erwarteten Effekt. War dies ein gültiger Satz von Schritten? Wie kann ich den Interaktionsbegriff interpretieren ControlFALSE:PreferA? Sind die anderen Koeffizienten noch die Log-Quoten?

Pygmalion
quelle
Meine Antwort hier ist relevant: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

Antworten:

31

Ich gehe davon aus, dass PreferA = 1 ist, wenn man A und 0 bevorzugt, und dass ControlFALSE = 1 ist, wenn es behandelt wird, und 0 ist, wenn es kontrolliert wird.

exp(3.135)=23

exp(-2.309)=.099(1-.099)×100%=-90,1%.09923=2.3Also gibt es 2.3 solche Personen, die A für jede solche Person bevorzugen, die B bevorzugt. Also unter dieser Gruppe ist A immer noch populärer als B, aber weniger als in der unbehandelten / Grundliniengruppe.

.006-99,4%

exp(2,850)=17,317,3×.099=1,71exp(2,850-2.309)

So ist die potenzierte konstant Sie die Baseline gibt Chancen , geben die potenzierte Koeffizienten der Haupteffekte Sie die Odds Ratios , wenn die anderen Variablen gleich 0, und die potenzierte Koeffizient der Interaktionsterme sagt Ihnen das Verhältnis von Wich die Odds Ratio ändert .

Maarten Buis
quelle
Vielen Dank Maarten, das ist sehr hilfreich, ebenso wie Ihre Antwort auf meine andere, verwandte Frage. Ich möchte jedoch nur ein bisschen Klarheit über einen Punkt erlangen. Wie ich in meiner anderen Frage angedeutet habe, bin ich besorgt über die statistische Validität dessen, was ich hier getan habe, weil es ControlFALSEim ersten Modell einen hohen p-Wert und im zweiten Modell einen relativ niedrigen gibt. Als Sie Ihre Antwort auf meine andere Frage auf diesen speziellen Fall anwendeten, sagten Sie, dass dies passieren könnte, wenn Controlsich dies negativ auf eine Gruppe Preferund positiv auf die andere auswirken würde.
Pygmalion
(Platzmangel) Ist diese Interpretation hier sinnvoll? Ich bin mir nicht ganz sicher, wie ich es direkt anwenden soll.
Pygmalion
Die Wirkung des ControlFALSEersten Modells ist die Wirkung der Behandlung sowohl für diejenigen, die zuvor A bevorzugten, als auch für diejenigen, die dies nicht taten, während die Wirkung des zweiten Modells nur die Wirkung der Behandlung für diejenigen ist, die A zuvor nicht bevorzugten. Ob das in Ordnung ist oder nicht, ist keine statistische Frage, aber ob das inhaltlich sinnvoll ist oder nicht.
Maarten Buis
@ MaartenBuis Gute Erklärung. Wie würden Sie die entsprechenden Berechnungen für Konfidenzintervalle der Schätzungen durchführen? Zur Erleichterung der Interpretation habe ich die logistischen Modelle in der Regel geschichtet (zB durch vorherige Präferenz in diesem Beispiel) und die Interaktionsterm als „statistischer Test für signifikanten Unterschied verwende in oder ist dies akzeptabel.?
bobmcpop
2

Ich fand dieses Papier auch hilfreich bei der Interpretation der Interaktion in der logistischen Regression:

Chen, JJ (2003). Vermittlung komplexer Informationen: Interpretation statistischer Interaktionen in multiplen logistischen Regressionsanalysen . American Journal of Public Health , 93 (9), 1376-1377.

Tiefsee
quelle
4
Ich habe eine vollständige Referenz angegeben (Titel, Autor, Datum, Zeitschrift usw.), was bedeutet, dass der Beitrag weiterhin nützlich ist, wenn sich die Linkadresse ändert. Aber könnten Sie es erweitern, um den Inhalt zusammenzufassen? Ansonsten ist dies eher ein Kommentar als eine Antwort - wir bevorzugen, dass unsere Antworten in sich geschlossen sind, daher sind sie resistent gegen "Link-Rot". Alternativ können wir dies in einen Kommentar für Sie umwandeln.
Silverfish
Vielen Dank. Ich habe NCBI verlinkt, also dachte ich, es wäre in Ordnung. Ich stimme den Änderungen zu. Vielen Dank!
Deepseas
0

Wenn ich versuche, Interaktionen in logistischen Regressionen zu interpretieren, ist es meine eigene Präferenz, die vorhergesagten Wahrscheinlichkeiten für jede Kombination von kategorialen Variablen zu betrachten. In Ihrem Fall wären dies nur 4 Wahrscheinlichkeiten:

  1. Lieber A, Kontrolle wahr
  2. Bevorzugen Sie A, steuern Sie false
  3. Bevorzugen Sie B, steuern Sie wahr
  4. Bevorzugen Sie B, kontrollieren Sie falsch

Wenn ich kontinuierliche Variablen habe, schaue ich normalerweise auf den vorhergesagten Wert im Median, 1. und 3. Quartil.

Obwohl dies nicht direkt mit der Interpretation der einzelnen Koeffizienten zusammenhängt, kann ich (und meine Kunden) oft auf klare Weise sehen, was vor sich geht.

Peter Flom - Wiedereinsetzung von Monica
quelle