Warum sollten wir in der linearen Regression quadratische Terme einbeziehen, wenn wir nur an Interaktionstermen interessiert sind?

10

Angenommen, ich interessiere mich für ein lineares Regressionsmodell für , weil ich sehen möchte, ob eine Wechselwirkung zwischen den beiden Kovariaten einen Einfluss auf Y hat.

Yi=β0+β1x1+β2x2+β3x1x2

In den Kursnotizen eines Professors (mit denen ich keinen Kontakt habe) heißt es: Wenn Sie Interaktionsbegriffe einbeziehen, sollten Sie deren Begriffe zweiten Grades angeben. dh sollte in die Regression einbezogen werden.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Warum sollte man Begriffe zweiten Grades aufnehmen, wenn wir nur an den Interaktionen interessiert sind?

Narr126
quelle
7
Wenn das Modell , sollte es und . Aberx1x2x1x2x12 und x22 sind optional.
user158565
6
Die Meinung Ihres Professors scheint ungewöhnlich zu sein. Es könnte aus einem speziellen Hintergrund oder einer Reihe von Erfahrungen stammen, da "sollte" definitiv keine universelle Anforderung ist. Möglicherweise ist stats.stackexchange.com/questions/11009 von Interesse.
whuber
@ user158565 hi! Darf ich fragen, warum wir auch und x 2 einschließen sollten ? Daran habe ich ursprünglich nicht gedacht, aber jetzt, wo du es erwähnt hast ..! x1x2
Narr126
@whuber hi! Danke für den Link! Ich denke, dass es Sinn macht, den Haupteffekt einzubeziehen, aber ich habe Probleme, ihn auf Begriffe zweiter Ordnung auszudehnen. // user158565 Ich denke, der obige Link hat darauf geantwortet, danke!
Narr126
Würden Sie bitte einen Link zu den Daten posten?
James Phillips

Antworten:

8

Es kommt auf das Ziel der Folgerung an. Wenn Sie Rückschlüsse darauf ziehen möchten, ob eine Interaktion vorliegt, beispielsweise in einem kausalen Kontext (oder allgemeiner, wenn Sie den Interaktionskoeffizienten interpretieren möchten), ist diese Empfehlung Ihres Professors sinnvoll und stammt aus dem Tatsache, dass eine falsche Angabe der funktionalen Form zu falschen Schlussfolgerungen über die Interaktion führen kann .

Hier ist ein einfaches Beispiel, in dem es keinen Interaktionsterm zwischen x1 und x2 in der Strukturgleichung von y gibt. Wenn Sie jedoch den quadratischen Term von x1 nicht einbeziehen , würden Sie fälschlicherweise schließen, dass x1 mit x2 interagiert, wenn in der Tat nicht.

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Dies kann einfach als ein Fall einer ausgelassenen variablen Vorspannung interpretiert werden, und hier ist x12 die ausgelassene Variable. Wenn Sie zurückgehen und den quadratischen Term in Ihre Regression einbeziehen, verschwindet die offensichtliche Interaktion.

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Natürlich gilt diese Argumentation nicht nur für quadratische Terme, sondern auch für die Fehlspezifikation der Funktionsform im Allgemeinen. Ziel ist es, die bedingte Erwartungsfunktion angemessen zu modellieren, um die Interaktion zu bewerten. Wenn Sie sich auf die Modellierung mit linearer Regression beschränken, müssen Sie diese nichtlinearen Terme manuell einfügen. Eine Alternative besteht jedoch darin, eine flexiblere Regressionsmodellierung zu verwenden, beispielsweise die Kernel-Ridge-Regression .

Carlos Cinelli
quelle
Vielen Dank @CarlosCinelli. Sagen Sie abschließend, wir sollten Begriffe gleichen Grades aufnehmen, um mögliche Fehlspezifikationen der funktionalen Form zu berücksichtigen, und die Regression bestimmen lassen, welche Begriffe von Bedeutung sind.
Narr126
3
@ KevinC Die Hauptfrage hier ist: Möchten Sie den Interaktionsbegriff interpretieren? Wenn Sie dies tun, ist eine falsche Angabe der Funktionsform ein echtes Problem. Das Hinzufügen quadratischer Terme ist nur eine einfache Möglichkeit, Nichtlinearitäten zu erfassen. Das allgemeine Problem besteht jedoch darin, die bedingte Erwartungsfunktion entsprechend zu modellieren.
Carlos Cinelli
1
Bitte nicht rm(list=ls())in den hier veröffentlichten Code aufnehmen! Wenn Leute den Code einfach kopieren und einfügen und ausführen, könnten sie eine Überraschung bekommen ... Ich habe ihn vorerst entfernt.
kjetil b halvorsen
3

X1X2

Das erste Modell kann folgendermaßen neu ausgedrückt werden:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

X1YX2X1X2X1YX2

Das zweite Modell kann folgendermaßen neu ausgedrückt werden:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

X1YX2X1X12X12X2X1X2

X1YX2

X1X2X1X2X12X22

Beachten Sie, dass ich die von Ihnen verwendete Notation aus Gründen der Konsistenz vereinfacht und den Fehlerbegriff in beiden Modellen explizit angegeben habe.

Isabella Ghement
quelle
2
Hallo @IsabellaGhement, danke für deine Erklärung. Zusammenfassend gibt es wirklich keine "Regeln", nach denen wir quadratische Begriffe hinzufügen sollten, wenn wir Interaktionsterme einschließen. Letztendlich kommt es auf die Annahmen zurück, die wir über unser Modell treffen, und auf die Ergebnisse unserer Analyse (dh Restdiagramme). Ist das richtig? Danke noch einmal :)!
Narr126
2
Das stimmt, Kevin! Es gibt keine "Regeln", da jeder Datensatz anders ist und auch unterschiedliche Fragen beantworten soll. Aus diesem Grund ist es für uns wichtig zu wissen, dass jedes Modell, das wir an diesen Datensatz anpassen, unterschiedliche Annahmen impliziert, die von den Daten unterstützt werden müssen, damit wir den Modellergebnissen vertrauen können. Die Modelldiagnosediagramme (z. B. Diagramm der Residuen gegen angepasste Werte) helfen uns zu überprüfen, inwieweit die Daten - wenn überhaupt - die Modellannahmen unterstützen.
Isabella Ghement
1
@ KevinC: Großartig! Schöne Ferien auch für dich, Kevin! ☃🎉🎁🎈
Isabella Ghement