Warum werden Interaktionen bei multipler Regression als Produkte und nicht als etwas anderes der Prädiktoren modelliert?

8

Betrachten Sie die multiple lineare Regression. Diese Frage mag täuschend einfach sein, aber ich versuche intuitiv zu verstehen, warum, wenn ich beispielsweise Prädiktoren X1 und X2 habe, Interaktionen zwischen diesen Prädiktoren von X1 * X2 angemessen erfasst werden können.

Ich weiß, dass Interaktionsbegriffe als Produkte modelliert werden, nur weil mir das in der Schule beigebracht wurde und jeder sagt, dass er das tun soll. Ich vermute, es gibt vielleicht ein geometrisches Argument.

Aber warum wird ein Produkt (z. B. zwei numerische Merkmale und nicht die zusätzliche Komplexität des Multiplizierens mit einem als Dummy-Variable, während das andere numerisch ist usw.) Interaktionen angemessen erfassen?

Warum werden "Interaktionen" nicht standardmäßig am besten von einem anderen f (X1, X2) erfasst, anstatt speziell von X1 * X2?

Ich kann die Idee sehen, dass X1 * X2 Situationen erfassen kann, in denen die Vorzeichen von X1 und X2 gleich sind oder nicht, aber warum sollten Interaktionen dann nicht standardmäßig mit f (X1, X2) = Vorzeichen (X1) modelliert werden? ) * Vorzeichen (X2) anstelle von f (X1, X2) = X1X2?

Mir ist klar, dass ich einer Regression oder einem Vorhersagemodell jedes andere f (X1, X2) hinzufügen kann, aber die genaue Form von Interaktionen durch Handcodierung zu finden, ist zeitaufwändig. Woher weiß ich, dass X1X2 eine gute erste Vermutung ist?

ChilliProject
quelle

Antworten:

6

Wir können uns eine "Interaktion" zwischen den Regressorvariablen und als Abweichung von einer perfekt linearen Beziehung vorstellen,x1x2 in der die Beziehung zwischen einem Regressor und der Antwort für verschiedene Werte der anderen Regressoren unterschiedlich ist. Der übliche "Interaktionsterm" ist in gewissem Sinne eine "einfachste" solche Abweichung.

Definitionen und Konzepte

"Lineare Beziehung" bedeutet einfach das übliche Modell, in dem wir annehmen, dass sich eine Antwort von einer linearen Kombination von (und einer Konstanten) durch unabhängige Fehler mit einem Mittelwert von Null unterscheidetYxiε:

(*)Y=β0+β1x1+β2x2+ε.

"Interaktion" bedeutet im allgemeinsten Sinne, dass die Parameter von anderen Variablen abhängen können.βi

Insbesondere in diesem Beispiel von nur zwei Regressoren könnten wir generisch schreiben

β1=β1(x2) and β2=β2(x1).

Analyse

In der Praxis glaubt niemand außer einem theoretischen Physiker wirklich, dass das Modell völlig genau ist: Es ist eine Annäherung an die Wahrheit und, wie wir hoffen, eine enge. Wenn wir diese Idee weiter verfolgen, könnten wir uns fragen, ob wir die Funktionen ähnliche Weise mit linearen Funktionen approximieren könnten , falls wir irgendeine Art von Interaktion modellieren müssen. Insbesondere könnten wir versuchen zu schreiben()β iβi

β1(x2)=γ0+γ1x2+ tiny error1;
β2(x1)=δ0+δ1x1+ tiny error2.

Mal sehen, wohin das führt. Das Einstecken dieser linearen Näherungen in ergibt()

Y=β0+β1(x2)x1+β2(x1)x2+ε=β0+(γ0+γ1x2+ tiny error1)x1+(δ0+δ1x1+ tiny error2)x2+ε=β0+γ0x1+δ0x2+(γ1+δ1)x1x2+

wobei " " den Gesamtfehler darstellt,

=( tiny error1)x1+( tiny error2)x2+ε.

Mit etwas Glück ist das Multiplizieren dieser beiden "winzigen Fehler" mit typischen Werten von entweder (a) im Vergleich zu oder (b) kann als zufällige Begriffe behandelt werden, die, wenn sie zu hinzugefügt werden (und möglicherweise die Werte anpassen) Der konstante Term , um systematische Verzerrungen zu berücksichtigen, kann als zufälliger Fehlerterm behandelt werden. xiεεβ0

In beiden Fällen sehen wir bei einer Änderung der Notation, dass dieses Modell der linearen Annäherung an eine Interaktion die Form annimmt

(**)Y=β0+β1x1+β2x2+β12x1x2+ε,

Das ist genau das übliche "Interaktions" -Regressionsmodell. (Beachten Sie, dass weder der neue Parameter noch selbst dieselbe Menge haben, die ursprünglich durch diese Begriffe in )ε().

Beobachten Sie, wie durch Variation der beiden ursprünglichen Parameter entsteht. Es erfasst die Kombination von (i) wie der Koeffizient von von abhängt (nämlich durch ) und (ii) wie der Koeffizient von von abhängt (durch ).β12x1x2γ1x2x1δ1


Einige Konsequenzen

Es ist eine Konsequenz dieser Analyse, dass, wenn wir alle bis auf einen der Regressoren fixieren, die Antwort ( bedingt ) immer noch eine lineare Funktion des verbleibenden Regressors ist. Y Wenn wir beispielsweise den Wert von festlegen wir das Interaktionsmodell als neu schreibenx2,()

Y=(β0+β2x2)+(β1+β12x2)x1+ε,

Dabei ist der und die Steigung ( der Koeffizient) Dies ermöglicht eine einfache Beschreibung und Einsicht. Geometrisch ist die Oberfläche durch die Funktion gegebenβ0+β2x2x1β1+β2x2.

f(x1,x2)=β0+β1x1+β2x2+β12x1x2

gilt : Wenn wir es parallel zu einer der Koordinatenachsen schneiden, ist das Ergebnis immer eine Linie. (Die Oberfläche selbst ist jedoch nicht planar, außer wenn Tatsächlich hat sie überall eine negative Gaußsche Krümmung.)β12=0.

Wenn sich unsere Hoffnung auf (a) oder (b) nicht erfüllt, können wir das Funktionsverhalten des ursprünglichen möglicherweise weiter ausdehnen , um Begriffe zweiter Ordnung oder höher aufzunehmen. Die Durchführung derselben Analyse zeigt, dass dadurch Begriffe der Form usw. in das Modell eingeführt werden. In diesem Sinne ist die Aufnahme eines (Produkt-) Interaktionsterms lediglich der erste und einfachste Schritt zur Modellierung nichtlinearer Beziehungen zwischen der Antwort und den Regressoren mithilfe von Polynomfunktionen.βix12, x22, x1x22, x12x2,

Schließlich zeigte John Tukey in seinem Lehrbuch EDA (Addison-Wesley 1977), wie dieser Ansatz weitaus allgemeiner durchgeführt werden kann. Nach dem ersten "erneuten Ausdrücken" (dh Anwenden geeigneter nichtlinearer Transformationen auf die Regressoren) und der Antwort ist es häufig der Fall, dass entweder Modell auf die transformierten Variablen oder, falls nicht, Modell kann leicht angepasst werden (unter Verwendung einer robusten Analyse von Residuen). Dies ermöglicht es, eine Vielzahl nichtlinearer Beziehungen als bedingt lineare Antworten auszudrücken und zu interpretieren.()()

whuber
quelle
1
Dies ist eine schöne detaillierte Antwort. Vielen Dank. Abgesehen davon sehe ich immer wieder Hinweise auf Tukeys Buch auf dieser Seite ... obwohl es so alt ist. Vielleicht ist es Zeit, es zu lesen.
ChilliProject