Interpretationskoeffizienten einer Interaktion zwischen kategorialer und kontinuierlicher Variable

9

Ich habe eine Frage zur Interpretation der Koeffizienten einer Wechselwirkung zwischen kontinuierlicher und kategorialer Variable. Hier ist mein Modell:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

Nehmen wir an, die Gleichung des Modells lautet:

E [cog] = a + b1 (lg_hag) + b2 (Educa2 * lg_hag) + b3 (Educa3 * lg_hag) + b4 (Educa4 * lg_hag) + b5 (pdg, zentriert) + andere Kovaren, wobei

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Meine Frage ist: Wenn meine Interpretation richtig ist, wie man Konfidenzintervalle für jede Effektschätzung von Wechselwirkungen (z. B. b1 + b2) aus den Konfidenzintervallen von b1 und b2 konstruiert.

Du bist sicher
quelle
nicht sehr vertraut damit, wie man das in R. macht. Angenommen, in sas können Sie das Ergebnis durch die Anweisung "Schätzung" erhalten, siehe support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Antworten:

7

Ihre Interpretation der Koeffizienten des Modells ist nicht vollständig korrekt. Lassen Sie mich zunächst die Bedingungen des Modells zusammenfassen.

Kategoriale Variablen (Faktoren): , s e x und e d u c aracesexeduca

Der Faktor racevier Stufen hat: .race={white,black,mexican,multi/other}

Der Faktor sexhat zwei Ebenen: .sex={male,female}

Der Faktor educahat fünf Ebenen: .educa={1,2,3,4,5}

Standardmäßig verwendet R Behandlungskontraste für kategoriale Variablen. In diesen Kontrasten wird der erste Wert des Faktors als Referenzpegel verwendet und die verbleibenden Werte werden gegen die Referenz getestet. Die maximale Anzahl von Kontrasten für eine kategoriale Variable entspricht der Anzahl von Ebenen minus eins.

Die Kontraste raceermöglichen das Testen der folgenden Unterschiede: , r a c e = m e x i c a n v s . r a c e = w h i t e und r a c erace=black vs.race=whiterace=mexican vs.race=white .race=multi/other vs.race=white

Für den Faktor ist der Referenzpegel 1 , das Kontrastmuster ist analog. Diese Effekte können als Differenz in der abhängigen Variablen interpretiert werden. In Ihrem Beispiel der Mittelwert ist 13,8266 Einheiten höher für e d u c a = 2 im Vergleich zu e d u c a = 1 ( ).educa1cog13.8266educa=2educa=1as.factor(educa)2

Ein wichtiger Hinweis: Wenn in einem Modell Behandlungskontraste für eine kategoriale Variable vorhanden sind, basiert die Schätzung weiterer Effekte auf dem Referenzniveau der kategorialen Variablen, wenn auch Wechselwirkungen zwischen weiteren Effekten und der kategorialen Variablen berücksichtigt werden. Wenn die Variable nicht Teil einer Interaktion ist, entspricht ihr Koeffizient dem Durchschnitt der einzelnen Steigungen von Teilmengen dieser Variablen entlang aller verbleibenden kategorialen Variablen. Die Auswirkungen von und e d u c a entsprechen durchschnittlichen Effekten in Bezug auf die Faktorstufen der anderen Variablen. Um die Gesamtwirkung von r a c e zu testen , müssten Sie gehenraceeducarace und s e x aus dem Modell.educasex

Numerische Variablen: und p d glg_hagpdg

Beide lg_hagund pdgsind numerische Variablen, daher stellen die Koeffizienten die Änderung der abhängigen Variablen dar, die mit einer Zunahme des Prädiktors um .1

pdglg_hageducaeduca=1lg_hag

lg_hag×educa

lg_hageducalg_hageducaeduca=1

lg_hag:as.factor(educa)2-21.2224lg_hag21.2224educa=2educa=1

Sven Hohenstein
quelle
„Diese Interaktion Koeffizienten gelten auch für race=whiteund sex=malenur.“ Bist du dir da sicher? Ich frage, weil weder racenoch sexin Wechselwirkung mit dem lg_hag×educaBegriff steht ... Ich betrachte mehrere Texte, die ich nicht explizit angegeben sehe.
Landroni
2
@landroni Die Steigungen werden für den Punkt geschätzt, an dem alle verbleibenden Prädiktoren gleich 0 sind.
Sven Hohenstein
Ja, das verstehe ich auch. Alle anderen Prädiktoren werden konstant gehalten, was bedeutet, dass die Faktoren auf ihrem Basisniveau festgelegt sind. Aber darin liegt mein Rätsel: Ich habe mir mehrere Bücher angesehen, die diese subtile, aber weitreichende Nuance größtenteils zu beschönigen scheinen. Darüber hinaus ziehen Papiere häufig "Kontrolle durch die Industrie", ziehen jedoch Schlussfolgerungen, als ob die Koeffizienten über die gesamte Stichprobe hinweg bedingungslos wären, anstatt hervorzuheben, dass dies nur für das Basisniveau gilt
landroni
1
"Wenn in einem Modell Behandlungskontraste für eine kategoriale Variable vorhanden sind, basiert die Schätzung weiterer Effekte auf dem Referenzniveau der kategorialen Variablen." Nach weiteren Überlegungen bin ich nicht überzeugt (oder ich folge Ihrem Argument nicht vollständig). Sie scheinen zu implizieren, dass die Beta-Schätzung für z. B. pdgvom Referenzniveau abhängt, was eindeutig nicht der Fall ist. Wenn ich den Referenzwert eines der Faktoren ändere (z. B. sex), pdgändert sich die Schätzung für NICHT ...
landroni
1
@landroni Danke für den Hinweis. Sie haben Recht, diese Aussage ist irreführend. Tatsächlich gilt dies nur für Prädiktoren, die auch Teil von Interaktionstermen mit kategorialen Variablen sind. Daher hängt die Schätzung von pdgtatsächlich nicht von der Spezifikation der Kontraste ab. Ich werde die Antwort entsprechend ändern.
Sven Hohenstein