Ich habe zwei Prädiktoren in einem binären logistischen Regressionsmodell: einen binären und einen kontinuierlichen. Mein primäres Ziel ist es, die Koeffizienten der beiden Prädiktoren innerhalb desselben Modells zu vergleichen.
Ich bin auf Andrew Gelmans Vorschlag gestoßen, Eingabevariablen für die kontinuierliche Regression zu standardisieren:
I) Ursprünglicher Vorschlag (2008): Teilen Sie den kontinuierlichen Prädiktor durch 2 SD
Original manuscript:
http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf
II) Aktualisierte Empfehlung (2009): Teilen Sie den kontinuierlichen Prädiktor durch 1 SD UND codieren Sie die binären Eingabewerte von (0,1) auf (-1, + 1) neu.
Updated recommendation (1 SD, recode binary):
http://andrewgelman.com/2009/06/09/standardization/
Die richtige Interpretation der resultierenden Koeffizienten ist für mich immer noch schwer zu finden:
SZENARIO 1: BEIDE PREDIKATOREN SIND IM GLEICHEN MODELL BEDEUTEND
Ergebnis: nicht transformiert binär Y Kontinuierlicher Prädiktor: XCONT (geteilt durch 1sd) Binärer Prädiktor: XBIN (neu codiert, um die Werte -1 oder 1 anzunehmen)
> orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN,
family=binomial(link="logit")))
> summary(orfit1c)
Call:
glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.9842 -0.6001 -0.5481 -0.5481 1.9849
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.8197 0.1761 -10.331 < 2e-16 ***
XCONT 0.3175 0.1190 2.667 0.00765 **
XBIN 1.0845 0.3564 3.043 0.00234 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 385.88 on 407 degrees of freedom
AIC: 391.88
SZENARIO 2: WEDER BEDEUTEND IM GLEICHEN MODELL (ABER wenn sie in zwei verschiedenen Modellen getrennt eingegeben werden, sind ihre Koeffizienten beide signifikant)
Call:
glm(formula =YBIN2 ~ XCONT2 + XBIN2, family = binomial(link =
"logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0090 -0.6265 -0.5795 -0.5795 1.9573
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.7562 0.1835 -9.570 <2e-16 ***
XCONT2 0.2182 0.1318 1.656 0.0977 .
XBIN2 0.6063 0.3918 1.547 0.1218
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 398.99 on 409 degrees of freedom
Residual deviance: 390.01 on 407 degrees of freedom
AIC: 396.01
Frage: Für die ursprüngliche Skalierungsmethode wurde erklärt, dass "eine Änderung um eine Einheit in einem kontinuierlichen Prädiktor zwei Standardabweichungen dieses Prädiktors abdeckt".
Bin ich bei der aktualisierten Skalierungsmethode in meiner Interpretation von Szenario 1 richtig:
(1) Eine Änderung des kontinuierlichen Prädiktors um eine Einheit deckt 1 Standardabweichung des XCONT ab
(2) und diese Änderung von 1 SD in XCONT entspricht einer Änderung von 1 Einheit (dh Abwesenheit oder Anwesenheit) des binären Prädiktors (XBIN).
(3) Dementsprechend sagt eine Änderung von 1 SD in XBIN eine Zunahme von YBIN um 1 Einheit voraus, während eine Zunahme von YCONT um 1/3 Einheit eine Zunahme von YBIN um 1 Einheit vorhersagt.
FRAGEN
Muss die in 1-3 beschriebene Interpretation korrigiert werden? Kann ich trotzdem sagen, dass eine Änderung von 1 Einheit in X eine Änderung von 1 Einheit in binärem Ergebnis (0 oder 1) vorhersagt, da die Variable für das binäre Ergebnis nicht neu codiert wurde?
Was kann man noch über die Ergebnisse sagen, insbesondere wenn ich versuche, die beiden Koeffizienten für den kontinuierlichen und den binären Prädiktor zu vergleichen?