Ist die Korrelation zwischen Variablen in einer Interaktion wichtig?

8

Angenommen, Sie passen ein Modell . Gibt es praktische Implikationen für die Abschätzung des Interaktionseffekts, wenn und korreliert sind?y=x1+x2+x1×x2x1x2

Ich verstehe, dass es Kollinearitätsprobleme geben könnte, wenn und sehr korreliert sind, aber das sollte den Interaktionsterm nicht beeinflussen, oder?x1x2

hlinee
quelle
1
Sie scheinen nach Informationen über die Korrelation zwischen und wenn und korreliert sind. Eine Möglichkeit, ein Gefühl dafür zu bekommen, was abgeleitet werden kann, besteht darin, zu bemerken, dass das Hinzufügen einer Konstanten (z. B. ) zu einem der zwar ihre Korrelation nicht ändert, in ein konstantes PlusDiese beiden letzten Terme zeigen, dass einen tiefgreifenden Einfluss auf die Korrelation zwischen undWenn dies nicht sofort eine Antwort auf Ihre Frage nahelegt, sollten Sie einige Streudiagramme zeichnen.x1x2x1x1x2cxix1x2(x1x2+cx1+cx2).x 1 x 2 x i .cx1x2xi.
whuber
@whuber Ich habe Probleme, Ihrer Logik zu folgen. Gibt es eine explizitere schrittweise Erklärung, auf die Sie verlinken können? Ich habe versucht, es mit der Korrelationsformel zu schreiben, konnte aber Ihre Antwort nicht reproduzieren
hlinee
@whuber Auch in Bezug auf meine ursprüngliche Frage denke ich, dass ein Kontext helfen könnte, da ich zustimme, dass es ziemlich vage ist. Ich präsentierte meine Ergebnisse auf der Suche nach einem Interaktionseffekt einem Statistiker, mit dem ich zusammengearbeitet hatte, und fragte mich zunächst, ob die beiden Prädiktoren in meiner Interaktion korreliert waren. Ich hatte die Korrelation nicht untersucht und fragte ihn, warum es wichtig sei. Er konnte nicht ganz erklären warum, sagte aber, dass es wichtig sei, daher meine Frage.
Hlinee

Antworten:

9

Es gibt einen Grund, warum Ihr statistischer Berater nicht erklären konnte, warum die Einführung einer Interaktion in ein lineares Modell die Korrelationsstruktur nachteilig beeinflussen kann: Dies hängt von den Umständen ab und es ist im Allgemeinen nicht richtig, dass ein nachteiliger Effekt vorliegt. Schauen Sie sich einfach die in den Streudiagramm-Matrizen unten gezeigten Datensätze an, um zu sehen, auf welche Weise zwei Variablen mit ihren Produkten in Beziehung stehen können.

Der Rest dieses Beitrags erklärt, wie diese Zahlen erstellt wurden, und bietet möglicherweise einen besseren Einblick in die Situation.


Lassen Sie uns zunächst das Offensichtliche aus dem Weg : Sie Sie eine multiple Regression mit den drei Variablen Ob es Kollinearitätsprobleme gibt oder nicht, hängt von den linearen Beziehungen zwischen Das ist universell.x3=x1x2,x1,x2,x3.xi.

Das Besondere an diesem Problem ist die Beziehung zwischen und dem anderennämlich, dass So , wenn jemand geraten hat Sie vorsichtig zu sein, muss es zu einer Erwartung zurückzuführen sein , dass diese multiplikative Beziehung mathematisch eine Art von multicollinearity unter allen bringtx3xi;x3=x1x2.x i .xi.

Dies ist einfach nicht so, wie durch die Darstellung aller möglichen Muster gezeigt werden kann. Ich möchte Sie nicht mit der Pedanterie erschöpfen, alle Möglichkeiten durchzugehen, also lassen Sie mich nur einige der anschaulichsten skizzieren. Das grundlegende Werkzeug, das ich in dieser Studie verwenden werde, ist die Beobachtung, dass die Korrelation zwischen beliebigen Variablen unverändert bleibt, wenn die separat lineare Transformationen durchlaufen. x1,x2xi x 1 x 2 x i . Das heißt, wir können jede Variable frei mit Konstanten multiplizieren und den Ergebnissen andere Konstanten hinzufügen, ohne die Korrelation zu ändern. Diese Operationen können jedoch die Korrelationen zwischen und verändernx1x2xi.

(Fast) konstantes Produkt

Es ist möglich, dass konstant ist (was problematisch ist, wenn eine Regression eine Konstante enthält). Um ein Beispiel zu erstellen, generieren Sie einfach Werte ungleich Null für und definieren Sie Ihr Produkt entspricht konstruktionsbedingt .x1x2x1x2=c/x1.c

Sie können dieses Beispiel stören, indem Sie in eine Zufallsvariable mit Werten nahe ändern Wenn Sie dies tun, wird ein wenig Korrelation zwischen dem und seinem Produkt eingeführt, aber nicht viel. Hier ist zum Beispiel ein Beispiel, bei dem aus einer Gamma -Verteilung gezogen wird und eine Normalverteilung mit dem Mittelwert und einer Standardabweichung von nurc0c.xix1(5)c11/100:

Abbildung 0

Obwohl die in diesem Beispiel eine Korrelation von , ihre Korrelationen mit nur undxiρ12=0.87x1x20.060.00.

Obwohl es ein Problem geben kann, sowohl als auch in einem linearen Modell zu verwenden, ist es daher unwahrscheinlich, dass es verschlimmert.x1x2x1x2

Nicht konstantes Produkt

Um die Berechnungen klarer zu machen, können wir genauso gut annehmen, dass eine Einheitsvarianz hat. Die Varianz von sei und schreibe für die Korrelationen zwischen und Berechnen wir, was mit diesen Korrelationen passiert, wenn die Konstanten von subtrahiert werdenDa die perfekt symmetrische Rollen spielen (tauschen Sie einfach " " gegen " " in den Indizes), reicht es aus, die Korrelation mit zu berechnenxix1x2τ2ρ12ix1x2xi.cixi.xi12x1:

(*)Cor((x1c1)(x2c2),x1)=Cov((x1c1)(x2c2),x1)Var(x1c1)(x2c2)Varx1=Cov(x1x2c2x1c1x2+c1c2,x1)Var(x1x2c1x2c2x1+c1c2)=τρ121c2c1ρ12τ2c1ρ12c22c1ρ1222c2ρ121+2c1c2ρ12.

Keine Korrelationen mit dem Produkt

Unabhängig davon, wie die Korrelation zwischen könnte, können wir wählen , um das Produkt nicht mit korrelierenxi( c 1 , c 2 ) x i .(c1,c2)xi.

Aus der vorstehenden Analyse wird dies erreicht, wenn der Zähler von für Null ist()i=1,2:

{0=τρ121c2c1ρ120=τρ122c1c2ρ12

Wenn dieses Gleichungssystem in eine eindeutige Lösung. Hier ist zum Beispiel eine Streudiagrammmatrix eines Datensatzes von Werten, in der eine bivariate Normalverteilung mit Korrelation aber die keine Korrelation mit :ρ1221,(c1,c2)100(xi)ρ12=0.99xix1x2

Abbildung 1

Da mit beiden ist ("orthogonal zu") Einführung in ein lineares Modell überhaupt nicht zu Problemen.x1x2xi,

Wie dieses Beispiel zeigt, ist diese Situation die Norm, da sie dazu neigt, aufzutreten, wenn zentriert wurde. Mit anderen Worten, wenn Sie Ihre Variablen vor dem Erstellen einer Interaktion zentrieren, treten normalerweise keine Probleme mit zusätzlicher Kollinearität auf.xi

Starke Korrelationen mit dem Produkt

Die Gleichungen können auch gelöst werden, um starke Korrelationen zu erzeugen. Wir müssen nicht einmal so weit gehen, um die Gleichungen genau zu lösen (was eine Herausforderung ist), da es eine einfache Abkürzung gibt: Indem wir eines der auf nahezu Null skalieren und eine Konstante hinzufügen, werden wir ihre Korrelation nicht ändern. aber dann ist das Produkt fast gleich einem Vielfachen des anderen der wodurch sie stark korreliert werden.()xix i ,xi,

Hier ist ein Beispiel, das auf dem vorherigen basiert. In diesem Beispiel wurde in geändert, sodass ungefähr gleich wodurch es stark positiv mit korreliert In diesem Beispiel ist und .x21+x2/100x1x2x1,x1x2.ρ121=0.999878ρ122=0.9898793

Figur 2

whuber
quelle
Perfekt! Vielen Dank für die gründliche Erklärung :)
Hlinee