Gibt es einen Unterschied zwischen "Steuern auf" und "Ignorieren" anderer Variablen bei multipler Regression?

Der Koeffizient einer erklärenden Variablen in einer multiplen Regression gibt Aufschluss über die Beziehung dieser erklärenden Variablen zur abhängigen Variablen. All dies, während für die anderen erklärenden Variablen 'steuern'.

Wie ich es bisher gesehen habe:

Während jeder Koeffizient berechnet wird, werden die anderen Variablen nicht berücksichtigt, so dass ich sie als ignoriert betrachte.

Habe ich also Recht, wenn ich denke, dass die Begriffe "kontrolliert" und "ignoriert" synonym verwendet werden können?

regression multiple-regression Siddharth Gopi
quelle

Ich war von dieser Frage nicht so begeistert, bis ich sah, dass die beiden dachten, Sie hätten @gung dazu inspiriert, sie anzubieten.

DWin

Ihnen war das Gespräch, das wir an anderer Stelle geführt haben und das diese Frage motivierte, @DWin, nicht bekannt. Es war zu viel, um dies in einem Kommentar zu erklären, und so bat ich das OP, es zu einer formellen Frage zu machen. Ich denke tatsächlich, dass es eine gute Frage ist, die Unterscheidung zwischen Ignorieren und Steuern für andere Variablen in der Regression explizit herauszustellen, und ich bin froh, dass dies hier diskutiert wurde.

gung - Wiedereinsetzung von Monica

siehe auch das erste Diagramm hier

Glen_b

Sind die in dieser Frage verwendeten Daten verfügbar, so dass wir sie selbst als Aufklärungsstichprobe verwenden können.

Larry

Etwas kontrollieren und etwas ignorieren ist nicht dasselbe. Wir betrachten ein Universum, in dem nur drei Variablen existieren: , und . Wir möchten ein Regressionsmodell aufbauen, das vorhersagt , und wir sind besonders an seiner Beziehung zu interessiert . Es gibt zwei grundsätzliche Möglichkeiten. $Y$ $X_1$ $X_2$ $Y$ $X_1$

Wir könnten die Beziehung zwischen und beim Steuern für bewerten : oder $X_1$ $Y$ $X_2$
$Y = β_{0} + β_{1} X_{1} + β_{2} X_{2}$ $Y = \beta_0 + \beta_1X_1 + \beta_2X_2$
wir könnten die Beziehung zwischen und einschätzen, während wir ignorieren : $X_1$ $Y$ $X_2$

$Y = β_{0} + β_{1} X_{1}$ $Y = \beta_0 + \beta_1X_1$

Zugegeben, dies sind sehr einfache Modelle, aber sie stellen unterschiedliche Betrachtungsweisen dar, wie sich die Beziehung zwischen und manifestiert. Häufig sind die geschätzten in beiden Modellen ähnlich, sie können jedoch sehr unterschiedlich sein. Was am wichtigsten ist, um festzustellen, wie unterschiedlich sie sind, ist die Beziehung (oder das Fehlen derselben) zwischen und . Betrachten Sie diese Abbildung: $X_1$ $Y$ $\hat\beta_1$ $X_1$ $X_2$

Bildbeschreibung hier eingeben

In diesem Szenario ist mit korreliert . Da der Plot zweidimensional ist, ignoriert er (möglicherweise ironisch). Daher habe ich die Werte von für jeden Punkt mit unterschiedlichen Symbolen und Farben angegeben (der folgende Pseudo-3D-Plot bietet eine andere Möglichkeit, die Struktur anzuzeigen der Daten). Wenn wir ein Regressionsmodell , das ignoriert , erhalten wir die durchgezogene schwarze Regressionslinie. Wenn wir ein Modell , das für gesteuert wird , erhalten wir eine Regressionsebene, die wiederum schwer zu zeichnen ist. Ich habe also drei Schnitte durch diese Ebene gezeichnet, wobei , und $X_1$ $X_2$ $X_2$ $X_2$ $X_2$ $X_2$ $X_2=1$ $X_2=2$ $X_2=3$ . Somit haben wir die Linien, die die Beziehung zwischen und , die gelten, wenn wir für steuern . Bemerkenswert ist, dass die Steuerung für nicht eine einzelne Zeile ergibt, sondern eine Reihe von Zeilen. $X_1$ $Y$ $X_2$ $X_2$

Bildbeschreibung hier eingeben

Eine andere Möglichkeit, über den Unterschied zwischen Ignorieren und Steuern für eine andere Variable nachzudenken , besteht darin, den Unterschied zwischen einer Randverteilung und einer bedingten Verteilung zu betrachten . Betrachten Sie diese Abbildung:

Bildbeschreibung hier eingeben

_{( Dies ergibt sich aus meiner Antwort hier: Was ist die Intuition hinter bedingten Gaußschen Verteilungen? )}

Wenn Sie bei der normalen Kurve nach links von der Hauptfigur gezeichnet aussehen, das ist die Randverteilung von . Es ist die Verteilung von wenn wir die Beziehung zu ignorieren . In der Hauptfigur gibt es zwei Normalkurven, die bedingte Verteilungen von bei und . Die Steuerung der bedingten Verteilungen für die Ebene von , während die marginale Verteilung diese ignoriert . $Y$ $Y$ $X$ $Y$ $X_1 = 25$ $X_1 = 45$ $X_1$

gung - Wiedereinsetzung von Monica
quelle

Gung, das ist aufschlussreich. Ich bin froh, dass ich den Fehler gemacht habe, das Wort „ignorieren“ in meiner Antwort auf diese Frage zu verwenden. Ich werde jetzt herausfinden, wie genau statistische Pakete die anderen Variablen steuern. (Mein erster Gedanke ist, dass sie ein Maß wie den Pearson-Korrelationskoeffizienten verwenden. Bei vielen erklärenden Variablen würde es allerdings unordentlich werden.) Vielen Dank für diese Antwort!

Siddharth Gopi

Gern geschehen, @garciaj, obwohl ich noch nicht fertig bin ;-). Ich suche eine andere Figur; Möglicherweise muss ich es von Grund auf neu machen.

gung - Wiedereinsetzung von Monica

Die entscheidende Idee in der ersten Figur ist, dass diese Punkte in einem dreidimensionalen Raum liegen, mit den roten Kreisen auf einer flachen Ebene am Computerbildschirm, den blauen Dreiecken auf einer parallelen Ebene, ein wenig vor dem Bildschirm und dem Grün Pluspunkte in einem Flugzeug ein wenig davor. Die Regressionsebene neigt sich nach rechts abwärts, steigt jedoch an, wenn sie sich vom Bildschirm auf Sie zubewegt. Beachten Sie, dass dieses Phänomen auftritt, weil X1 und X2 korreliert sind. Wenn sie nicht korreliert wären, wären die geschätzten Betas gleich.

gung - Wiedereinsetzung von Monica

Und diese Art der Korrelation zwischen Prädiktoren (z. B. @gung-Szenario) ist das, was normalerweise einem Fall des Simpson-Paradoxons zugrunde liegt . In einem Universum mit mehr als drei Variablen ist es ratsam, sich daran zu erinnern, dass es Ihre Schlussfolgerungen lauert (d'oh!).

FairMiles

@MSIS: Wenn Sie eine Variable in einem Modell steuern, versucht das Modell, sie konstant (fest) zu halten, um alles andere im Modell abzuschätzen. Dies ist jedoch nur ein Versuch und unterliegt einem zufälligen Fehler. Daher ist er nicht unbedingt identisch mit dem, was Sie erhalten würden, wenn Sie eine Studie mit einer physisch auf einen bestimmten Wert festgelegten Variablen durchführen würden.

gung - Wiedereinsetzung von Monica

Gibt es einen Unterschied zwischen "Steuern auf" und "Ignorieren" anderer Variablen bei multipler Regression?

Antworten: