Angenommen, ich habe eine multivariable (mehrere unabhängige Variablen) Regression, die aus 3 Variablen besteht. Jede dieser Variablen hat einen bestimmten Koeffizienten. Wenn ich mich entscheide, eine vierte Variable einzuführen und die Regression erneut auszuführen, ändern sich dann die Koeffizienten der drei ursprünglichen Variablen?
Im weiteren Sinne: Wird bei einer multivariablen (mehrfach unabhängigen Variablen) Regression der Koeffizient einer bestimmten Variablen durch den Koeffizienten einer anderen Variablen beeinflusst?
regression
multiple-regression
multivariable
Lukas Pleva
quelle
quelle
multivariable
Sie damit mehrere unabhängige Variablen ("multiple regression") oder mehrere abhängige Variablen ("multivariate regression" oder "MAN (C) OVA")?Antworten:
Eine Parameterschätzung in einem Regressionsmodell (z. B. ) ändert sich, wenn dem Modell eine Variable, , hinzugefügt wird, die: Xjβ^ich Xj
Ein geschätztes Beta ändert sich nicht, wenn eine neue Variable hinzugefügt wird, wenn eine der oben genannten nicht korreliert ist. Man beachte , dass , ob sie in der unkorreliert sind Population (dh , oder ) keine Rolle spielt. Entscheidend ist, dass beide Stichprobenkorrelationen genau . Dies ist in der Praxis im Grunde genommen nur dann der Fall, wenn Sie mit experimentellen Daten arbeiten, bei denen die Variablen so manipuliert wurden, dass sie vom Design her nicht korreliert sind. ρ ( X j , Y ) = 0 0ρ( Xich, Xj)= 0 ρ( Xj, Y)= 0 0
Beachten Sie auch, dass der Betrag, um den sich die Parameter ändern, möglicherweise nicht besonders aussagekräftig ist (dies hängt zumindest teilweise von Ihrer Theorie ab). Darüber hinaus ist der Betrag, um den sie sich ändern können, eine Funktion der Größen der beiden obigen Korrelationen.
Anders ausgedrückt ist es nicht richtig, dieses Phänomen als "den Koeffizienten einer gegebenen Variablen, der durch den Koeffizienten einer anderen Variablen beeinflusst wird" zu betrachten. Es sind nicht die Betas , die sich gegenseitig beeinflussen. Dieses Phänomen ist eine natürliche Folge des Algorithmus, den statistische Software zur Schätzung der Steigungsparameter verwendet. Stellen Sie sich eine Situation vor, in der durch und , die wiederum miteinander korrelieren. Wenn sich nur im Modell befindet, wird ein Teil der Variation in , die auf ist, unangemessenerweise . Dies bedeutet, dass der Wert vonX i X j X i Y X j X i X iY. Xich Xj Xich Y. Xj Xich Xich ist voreingenommen; Dies wird als ausgelassene variable Vorspannung bezeichnet .
quelle
Es ist mathematisch möglich, dass sich die Koeffizienten nicht ändern, es ist jedoch unwahrscheinlich, dass sich die realen Daten überhaupt nicht ändern, selbst wenn alle unabhängigen Variablen voneinander unabhängig sind. Wenn dies jedoch der Fall ist, werden die Änderungen (mit Ausnahme des Abschnitts) zu 0 tendieren:
In der realen Welt sind jedoch unabhängige Variablen oft miteinander verwandt. In diesem Fall ändert das Hinzufügen einer vierten Variablen zur Gleichung die anderen Koeffizienten, manchmal um ein Vielfaches.
Dann gibt es mögliche Wechselwirkungen ... aber das ist eine andere Frage.
quelle
Im Allgemeinen ändert das Hinzufügen einer Variablen die früheren Koeffizienten fast immer.
Tatsächlich ist dies im Wesentlichen die Ursache für das Simpson-Paradoxon , bei dem sich Koeffizienten aufgrund ausgelassener Kovariaten ändern und sogar das Vorzeichen umkehren können.
Damit dies nicht passiert, müssten die neuen Variablen zu den vorherigen orthogonal sein. Dies geschieht häufig in geplanten Experimenten, ist jedoch bei Daten, bei denen das Muster der unabhängigen Variablen nicht geplant ist, sehr unwahrscheinlich.
quelle