Gibt es einen Unterschied zwischen "Steuern auf" und "Ignorieren" anderer Variablen bei multipler Regression?

50

Der Koeffizient einer erklärenden Variablen in einer multiplen Regression gibt Aufschluss über die Beziehung dieser erklärenden Variablen zur abhängigen Variablen. All dies, während für die anderen erklärenden Variablen 'steuern'.

Wie ich es bisher gesehen habe:

Während jeder Koeffizient berechnet wird, werden die anderen Variablen nicht berücksichtigt, so dass ich sie als ignoriert betrachte.

Habe ich also Recht, wenn ich denke, dass die Begriffe "kontrolliert" und "ignoriert" synonym verwendet werden können?

Siddharth Gopi
quelle
2
Ich war von dieser Frage nicht so begeistert, bis ich sah, dass die beiden dachten, Sie hätten @gung dazu inspiriert, sie anzubieten.
DWin
1
Ihnen war das Gespräch, das wir an anderer Stelle geführt haben und das diese Frage motivierte, @DWin, nicht bekannt. Es war zu viel, um dies in einem Kommentar zu erklären, und so bat ich das OP, es zu einer formellen Frage zu machen. Ich denke tatsächlich, dass es eine gute Frage ist, die Unterscheidung zwischen Ignorieren und Steuern für andere Variablen in der Regression explizit herauszustellen, und ich bin froh, dass dies hier diskutiert wurde.
gung - Wiedereinsetzung von Monica
2
siehe auch das erste Diagramm hier
Glen_b
1
Sind die in dieser Frage verwendeten Daten verfügbar, so dass wir sie selbst als Aufklärungsstichprobe verwenden können.
Larry

Antworten:

88

Etwas kontrollieren und etwas ignorieren ist nicht dasselbe. Wir betrachten ein Universum, in dem nur drei Variablen existieren: , und . Wir möchten ein Regressionsmodell aufbauen, das vorhersagt , und wir sind besonders an seiner Beziehung zu interessiert . Es gibt zwei grundsätzliche Möglichkeiten. YX1X2YX1

  1. Wir könnten die Beziehung zwischen und beim Steuern für bewerten : oderX1YX2
    Y=β0+β1X1+β2X2
  2. wir könnten die Beziehung zwischen und einschätzen, während wir ignorieren : X1Y X2

    Y=β0+β1X1

Zugegeben, dies sind sehr einfache Modelle, aber sie stellen unterschiedliche Betrachtungsweisen dar, wie sich die Beziehung zwischen und manifestiert. Häufig sind die geschätzten in beiden Modellen ähnlich, sie können jedoch sehr unterschiedlich sein. Was am wichtigsten ist, um festzustellen, wie unterschiedlich sie sind, ist die Beziehung (oder das Fehlen derselben) zwischen und . Betrachten Sie diese Abbildung: X1Yβ^1X1X2

Bildbeschreibung hier eingeben

In diesem Szenario ist mit korreliert . Da der Plot zweidimensional ist, ignoriert er (möglicherweise ironisch). Daher habe ich die Werte von für jeden Punkt mit unterschiedlichen Symbolen und Farben angegeben (der folgende Pseudo-3D-Plot bietet eine andere Möglichkeit, die Struktur anzuzeigen der Daten). Wenn wir ein Regressionsmodell , das ignoriert , erhalten wir die durchgezogene schwarze Regressionslinie. Wenn wir ein Modell , das für gesteuert wird , erhalten wir eine Regressionsebene, die wiederum schwer zu zeichnen ist. Ich habe also drei Schnitte durch diese Ebene gezeichnet, wobei , undX1X2X2X2 X2X2X2=1X2=2X2=3. Somit haben wir die Linien, die die Beziehung zwischen und , die gelten, wenn wir für steuern . Bemerkenswert ist, dass die Steuerung für nicht eine einzelne Zeile ergibt, sondern eine Reihe von Zeilen. X1YX2 X2

Bildbeschreibung hier eingeben

Eine andere Möglichkeit, über den Unterschied zwischen Ignorieren und Steuern für eine andere Variable nachzudenken , besteht darin, den Unterschied zwischen einer Randverteilung und einer bedingten Verteilung zu betrachten . Betrachten Sie diese Abbildung:

Bildbeschreibung hier eingeben

( Dies ergibt sich aus meiner Antwort hier: Was ist die Intuition hinter bedingten Gaußschen Verteilungen? )

Wenn Sie bei der normalen Kurve nach links von der Hauptfigur gezeichnet aussehen, das ist die Randverteilung von . Es ist die Verteilung von wenn wir die Beziehung zu ignorieren . In der Hauptfigur gibt es zwei Normalkurven, die bedingte Verteilungen von bei und . Die Steuerung der bedingten Verteilungen für die Ebene von , während die marginale Verteilung diese ignoriert . YYXYX1=25X1=45X1

gung - Wiedereinsetzung von Monica
quelle
2
Gung, das ist aufschlussreich. Ich bin froh, dass ich den Fehler gemacht habe, das Wort „ignorieren“ in meiner Antwort auf diese Frage zu verwenden. Ich werde jetzt herausfinden, wie genau statistische Pakete die anderen Variablen steuern. (Mein erster Gedanke ist, dass sie ein Maß wie den Pearson-Korrelationskoeffizienten verwenden. Bei vielen erklärenden Variablen würde es allerdings unordentlich werden.) Vielen Dank für diese Antwort!
Siddharth Gopi
1
Gern geschehen, @garciaj, obwohl ich noch nicht fertig bin ;-). Ich suche eine andere Figur; Möglicherweise muss ich es von Grund auf neu machen.
gung - Wiedereinsetzung von Monica
4
Die entscheidende Idee in der ersten Figur ist, dass diese Punkte in einem dreidimensionalen Raum liegen, mit den roten Kreisen auf einer flachen Ebene am Computerbildschirm, den blauen Dreiecken auf einer parallelen Ebene, ein wenig vor dem Bildschirm und dem Grün Pluspunkte in einem Flugzeug ein wenig davor. Die Regressionsebene neigt sich nach rechts abwärts, steigt jedoch an, wenn sie sich vom Bildschirm auf Sie zubewegt. Beachten Sie, dass dieses Phänomen auftritt, weil X1 und X2 korreliert sind. Wenn sie nicht korreliert wären, wären die geschätzten Betas gleich.
gung - Wiedereinsetzung von Monica
1
Und diese Art der Korrelation zwischen Prädiktoren (z. B. @gung-Szenario) ist das, was normalerweise einem Fall des Simpson-Paradoxons zugrunde liegt . In einem Universum mit mehr als drei Variablen ist es ratsam, sich daran zu erinnern, dass es Ihre Schlussfolgerungen lauert (d'oh!).
FairMiles
2
@MSIS: Wenn Sie eine Variable in einem Modell steuern, versucht das Modell, sie konstant (fest) zu halten, um alles andere im Modell abzuschätzen. Dies ist jedoch nur ein Versuch und unterliegt einem zufälligen Fehler. Daher ist er nicht unbedingt identisch mit dem, was Sie erhalten würden, wenn Sie eine Studie mit einer physisch auf einen bestimmten Wert festgelegten Variablen durchführen würden.
gung - Wiedereinsetzung von Monica
8

Sie werden nicht ignoriert. Wenn sie "ignoriert" würden, wären sie nicht im Modell. Die Schätzung der erklärenden Variablen von Interesse ist bedingt auf den anderen Variablen. Die Schätzung wird "im Kontext von" oder "unter Berücksichtigung der Auswirkungen" der anderen Variablen im Modell gebildet.

DWin
quelle
Die Schätzung unterliegt natürlich anderen Variablen. Aber wir müssen es reinigen, indem wir die sogenannten anderen Faktoren in das Modell einführen. Manchmal sind diese Faktoren jedoch kategorischer Natur und verursachen mehr Probleme als eine gültige Lösung.
Subhash C. Davar