Warum sollten wir in der linearen Regression quadratische Terme einbeziehen, wenn wir nur an Interaktionstermen interessiert sind?

Angenommen, ich interessiere mich für ein lineares Regressionsmodell für , weil ich sehen möchte, ob eine Wechselwirkung zwischen den beiden Kovariaten einen Einfluss auf Y hat.

Y_{i} = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{1} x_{2}

$Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2$

In den Kursnotizen eines Professors (mit denen ich keinen Kontakt habe) heißt es: Wenn Sie Interaktionsbegriffe einbeziehen, sollten Sie deren Begriffe zweiten Grades angeben. dh sollte in die Regression einbezogen werden.

Y_{i} = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{1} x_{2} + β_{4} x_{1}^{2} + β_{5} x_{2}^{2}

$Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2$

Warum sollte man Begriffe zweiten Grades aufnehmen, wenn wir nur an den Interaktionen interessiert sind?

regression multiple-regression interaction linear-model Narr126
quelle

Wenn das Modell , sollte es und . Aber

x_{1} x_{2}

$x_1x_2$

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}^{2}

$x_1^2$ und

x_{2}^{2}

$x_2^2$ sind optional.

user158565

Die Meinung Ihres Professors scheint ungewöhnlich zu sein. Es könnte aus einem speziellen Hintergrund oder einer Reihe von Erfahrungen stammen, da "sollte" definitiv keine universelle Anforderung ist. Möglicherweise ist stats.stackexchange.com/questions/11009 von Interesse.

whuber

@ user158565 hi! Darf ich fragen, warum wir auch

und

einschließen sollten ? Daran habe ich ursprünglich nicht gedacht, aber jetzt, wo du es erwähnt hast ..!

x_{1}

$x_1$

x_{2}

$x_2$

Narr126

@whuber hi! Danke für den Link! Ich denke, dass es Sinn macht, den Haupteffekt einzubeziehen, aber ich habe Probleme, ihn auf Begriffe zweiter Ordnung auszudehnen. // user158565 Ich denke, der obige Link hat darauf geantwortet, danke!

Narr126

Würden Sie bitte einen Link zu den Daten posten?

James Phillips

Antworten:

Es kommt auf das Ziel der Folgerung an. Wenn Sie Rückschlüsse darauf ziehen möchten, ob eine Interaktion vorliegt, beispielsweise in einem kausalen Kontext (oder allgemeiner, wenn Sie den Interaktionskoeffizienten interpretieren möchten), ist diese Empfehlung Ihres Professors sinnvoll und stammt aus dem Tatsache, dass eine falsche Angabe der funktionalen Form zu falschen Schlussfolgerungen über die Interaktion führen kann .

Hier ist ein einfaches Beispiel, in dem es keinen Interaktionsterm zwischen $x_1$ und $x_2$ in der Strukturgleichung von $y$ gibt. Wenn Sie jedoch den quadratischen Term von $x_1$ nicht einbeziehen , würden Sie fälschlicherweise schließen, dass $x_1$ mit $x_2$ interagiert, wenn in der Tat nicht.

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Dies kann einfach als ein Fall einer ausgelassenen variablen Vorspannung interpretiert werden, und hier ist $x_1^2$ die ausgelassene Variable. Wenn Sie zurückgehen und den quadratischen Term in Ihre Regression einbeziehen, verschwindet die offensichtliche Interaktion.

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Natürlich gilt diese Argumentation nicht nur für quadratische Terme, sondern auch für die Fehlspezifikation der Funktionsform im Allgemeinen. Ziel ist es, die bedingte Erwartungsfunktion angemessen zu modellieren, um die Interaktion zu bewerten. Wenn Sie sich auf die Modellierung mit linearer Regression beschränken, müssen Sie diese nichtlinearen Terme manuell einfügen. Eine Alternative besteht jedoch darin, eine flexiblere Regressionsmodellierung zu verwenden, beispielsweise die Kernel-Ridge-Regression .

Carlos Cinelli
quelle

Vielen Dank @CarlosCinelli. Sagen Sie abschließend, wir sollten Begriffe gleichen Grades aufnehmen, um mögliche Fehlspezifikationen der funktionalen Form zu berücksichtigen, und die Regression bestimmen lassen, welche Begriffe von Bedeutung sind.

Narr126

@ KevinC Die Hauptfrage hier ist: Möchten Sie den Interaktionsbegriff interpretieren? Wenn Sie dies tun, ist eine falsche Angabe der Funktionsform ein echtes Problem. Das Hinzufügen quadratischer Terme ist nur eine einfache Möglichkeit, Nichtlinearitäten zu erfassen. Das allgemeine Problem besteht jedoch darin, die bedingte Erwartungsfunktion entsprechend zu modellieren.

Carlos Cinelli

Bitte nicht rm(list=ls())in den hier veröffentlichten Code aufnehmen! Wenn Leute den Code einfach kopieren und einfügen und ausführen, könnten sie eine Überraschung bekommen ... Ich habe ihn vorerst entfernt.

kjetil b halvorsen

$X_1$ $X_2$

Das erste Modell kann folgendermaßen neu ausgedrückt werden:

Y = β_{0} + (β_{1} + β_{3} X_{2}) X_{1} + β_{2} X_{2} + ϵ,

$Y = \beta_0 + (\beta_1 + \beta_3X_2)X_1 + \beta_2X_2+ \epsilon,$

$X1$ $Y$ $X_2$ $X_1$ $X_2$ $X_1$ $Y$ $X_2$

Das zweite Modell kann folgendermaßen neu ausgedrückt werden:

Y = β_{0} + (β_{1} + β_{3} X_{2}) X_{1} + β_{4} X_{1}^{2} + β_{2} X_{2} + β_{5} X_{2}^{2} + ϵ,

$Y = \beta_0 + (\beta_1 + \beta_3X_2)X_1 + \beta_4 X_1^2 + \beta_2X_2 +\beta_5X_2^2 + \epsilon,$

$X_1$ $Y$ $X_2$ $X_1$ $X_1^2$ $X_1^2$ $X_2$ $X_1$ $X_2$

$X_1$ $Y$ $X_2$

$X_1$ $X_2$ $X_1$ $X_2$ $X_1^2$ $X_2^2$

Beachten Sie, dass ich die von Ihnen verwendete Notation aus Gründen der Konsistenz vereinfacht und den Fehlerbegriff in beiden Modellen explizit angegeben habe.

Isabella Ghement
quelle

Hallo @IsabellaGhement, danke für deine Erklärung. Zusammenfassend gibt es wirklich keine "Regeln", nach denen wir quadratische Begriffe hinzufügen sollten, wenn wir Interaktionsterme einschließen. Letztendlich kommt es auf die Annahmen zurück, die wir über unser Modell treffen, und auf die Ergebnisse unserer Analyse (dh Restdiagramme). Ist das richtig? Danke noch einmal :)!

Narr126

Das stimmt, Kevin! Es gibt keine "Regeln", da jeder Datensatz anders ist und auch unterschiedliche Fragen beantworten soll. Aus diesem Grund ist es für uns wichtig zu wissen, dass jedes Modell, das wir an diesen Datensatz anpassen, unterschiedliche Annahmen impliziert, die von den Daten unterstützt werden müssen, damit wir den Modellergebnissen vertrauen können. Die Modelldiagnosediagramme (z. B. Diagramm der Residuen gegen angepasste Werte) helfen uns zu überprüfen, inwieweit die Daten - wenn überhaupt - die Modellannahmen unterstützen.

Isabella Ghement

@ KevinC: Großartig! Schöne Ferien auch für dich, Kevin! ☃🎉🎁🎈

Isabella Ghement