Der Koeffizient einer erklärenden Variablen in einer multiplen Regression gibt Aufschluss über die Beziehung dieser erklärenden Variablen zur abhängigen Variablen. All dies, während für die anderen erklärenden Variablen 'steuern'.
Wie ich es bisher gesehen habe:
Während jeder Koeffizient berechnet wird, werden die anderen Variablen nicht berücksichtigt, so dass ich sie als ignoriert betrachte.
Habe ich also Recht, wenn ich denke, dass die Begriffe "kontrolliert" und "ignoriert" synonym verwendet werden können?
regression
multiple-regression
Siddharth Gopi
quelle
quelle
Antworten:
Etwas kontrollieren und etwas ignorieren ist nicht dasselbe. Wir betrachten ein Universum, in dem nur drei Variablen existieren: , und . Wir möchten ein Regressionsmodell aufbauen, das vorhersagt , und wir sind besonders an seiner Beziehung zu interessiert . Es gibt zwei grundsätzliche Möglichkeiten.Y X1 X2 Y X1
wir könnten die Beziehung zwischen und einschätzen, während wir ignorieren :X1 Y X2
Zugegeben, dies sind sehr einfache Modelle, aber sie stellen unterschiedliche Betrachtungsweisen dar, wie sich die Beziehung zwischen und manifestiert. Häufig sind die geschätzten in beiden Modellen ähnlich, sie können jedoch sehr unterschiedlich sein. Was am wichtigsten ist, um festzustellen, wie unterschiedlich sie sind, ist die Beziehung (oder das Fehlen derselben) zwischen und . Betrachten Sie diese Abbildung:X1 Y β^1 X1 X2
In diesem Szenario ist mit korreliert . Da der Plot zweidimensional ist, ignoriert er (möglicherweise ironisch). Daher habe ich die Werte von für jeden Punkt mit unterschiedlichen Symbolen und Farben angegeben (der folgende Pseudo-3D-Plot bietet eine andere Möglichkeit, die Struktur anzuzeigen der Daten). Wenn wir ein Regressionsmodell , das ignoriert , erhalten wir die durchgezogene schwarze Regressionslinie. Wenn wir ein Modell , das für gesteuert wird , erhalten wir eine Regressionsebene, die wiederum schwer zu zeichnen ist. Ich habe also drei Schnitte durch diese Ebene gezeichnet, wobei , undX1 X2 X2 X2 X2 X2 X2=1 X2=2 X2=3 . Somit haben wir die Linien, die die Beziehung zwischen und , die gelten, wenn wir für steuern . Bemerkenswert ist, dass die Steuerung für nicht eine einzelne Zeile ergibt, sondern eine Reihe von Zeilen. X1 Y X2 X2
Eine andere Möglichkeit, über den Unterschied zwischen Ignorieren und Steuern für eine andere Variable nachzudenken , besteht darin, den Unterschied zwischen einer Randverteilung und einer bedingten Verteilung zu betrachten . Betrachten Sie diese Abbildung:
( Dies ergibt sich aus meiner Antwort hier: Was ist die Intuition hinter bedingten Gaußschen Verteilungen? )
Wenn Sie bei der normalen Kurve nach links von der Hauptfigur gezeichnet aussehen, das ist die Randverteilung von . Es ist die Verteilung von wenn wir die Beziehung zu ignorieren . In der Hauptfigur gibt es zwei Normalkurven, die bedingte Verteilungen von bei und . Die Steuerung der bedingten Verteilungen für die Ebene von , während die marginale Verteilung diese ignoriert .Y Y X Y X1=25 X1=45 X1
quelle
Sie werden nicht ignoriert. Wenn sie "ignoriert" würden, wären sie nicht im Modell. Die Schätzung der erklärenden Variablen von Interesse ist bedingt auf den anderen Variablen. Die Schätzung wird "im Kontext von" oder "unter Berücksichtigung der Auswirkungen" der anderen Variablen im Modell gebildet.
quelle