Vorzeichenwechsel beim Hinzufügen einer weiteren Variablen in der Regression und mit viel größerer Größe

9

Grundeinstellung:

Regressionsmodell: wobei C der Vektor der Kontrollvariablen ist. $y = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon$

Ich interessiere mich für und erwarte, dass und negativ sind. Es gibt jedoch ein Multikollinearitätsproblem im Modell. Der Korrelationskoeffizient ist gegeben durch corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019. $\beta$ $\beta_1$ $\beta_2$ $x_1$ $x_2)=$ $x_1$ $x_3)=$ $x_2$ $x_3)=$

So $x_1$ und $x_2$ stark korreliert sind , und sie sollten nahezu die gleichen Informationen zur Verfügung stellen. Ich führe drei Regressionen durch:

ausschließen $x_1$ variabel; 2. $x_2$ Variable ausschließen; 3. Originalmodell mit $x_1$ und $x_2$ .

Ergebnisse:
Für Regression 1 und 2 wird das erwartete Vorzeichen für $\beta_2$ bzw. $\beta_1$ mit ähnlicher Größe angegeben. Und $\beta_2$ und $\beta_1$ sind in beiden Modellen in 10% signifikant, nachdem ich die HAC-Korrektur bei Standardfehlern durchgeführt habe. $\beta_3$ ist positiv, aber in beiden Modellen nicht signifikant.

Aber für 3 hat $\beta_1$ das erwartete Vorzeichen, aber das Vorzeichen für $\beta_2$ ist positiv, wobei die Größe im absoluten Wert zweimal größer als $\beta_1$ ist. Und sowohl $\beta_1$ als auch $\beta_2$ sind unbedeutend. Darüber $\beta_3$ verringert sich die Größe für im Vergleich zu Regression 1 und 2 fast um die Hälfte.

Meine Frage ist:

Warum wird in 3 das Vorzeichen von positiv und im absoluten Wert viel größer als ? Gibt es einen statistischen Grund dafür, dass das Vorzeichen umdrehen kann und eine große Größe hat? Oder liegt es daran, dass Modell 1 und 2 unter einem Problem mit ausgelassenen Variablen leiden, das aufgeblasen vorausgesetzt, wirkt sich positiv auf y aus? Aber dann sollten in Regressionsmodell 1 und 2 sowohl als auch positiv statt negativ sein, da der Gesamteffekt von und in Regressionsmodell 3 positiv ist. $\beta_2$ $\beta_1$ $\beta_2$ $\beta_3$ $x_2$ $\beta_2$ $\beta_1$ $x_1$ $x_2$

regression multicollinearity ting
quelle

8

Denken Sie an dieses Beispiel:

Sammeln Sie einen Datensatz basierend auf den Münzen in den Taschen der Menschen. Die Variable y / response ist der Gesamtwert der Münzen, die Variable x1 ist die Gesamtzahl der Münzen und x2 ist die Anzahl der Münzen, die keine Viertel sind (oder was auch immer der größte Wert ist) der gängigen Münzen sind für die lokale).

Es ist leicht zu erkennen, dass die Regression mit entweder x1 oder x2 eine positive Steigung ergeben würde, aber wenn beide in das Modell einbezogen würden, würde die Steigung auf x2 negativ werden, da eine Erhöhung der Anzahl kleinerer Münzen ohne Erhöhung der Gesamtzahl der Münzen ein Ersetzen bedeuten würde große Münzen mit kleineren und Verringerung des Gesamtwerts (y).

Dasselbe kann jedes Mal passieren, wenn Sie x Variablen korreliert haben. Die Vorzeichen können leicht entgegengesetzt sein, wenn ein Begriff für sich und in Gegenwart anderer ist.

Greg Snow
quelle

3

Sie haben Ihre eigene Frage beantwortet - es gibt Kollinearität.

Ein bisschen Erklärung: und sind sehr kollinear. Wenn Sie jedoch beide in die Regression eingeben, versucht die Regression, die Wirkung der anderen Variablen zu steuern. Mit anderen Worten, halten konstant, was zu tun Änderungen in tun , um . Aber die Tatsache, dass sie so eng miteinander verbunden sind, bedeutet, dass diese Frage albern ist und seltsame Dinge passieren können. $x_1$ $x_2$ $x_1$ $x_2$ $y$

Peter Flom - Monica wieder einsetzen
quelle

Vielen Dank. Da Multicolinearität theoretisch nur die Varianz aufbläst, aber nicht die Gesamtvorhersagekraft der stark korrelierten Variablen beeinflusst, dachte ich, dass in Modell 3 ein ähnliches Ergebnis liefern sollte wie in Modell 1 oder in Modell 2, da die paarweise Korrelation von x1 x2 mit x3 nicht hoch ist (eigentlich ist dies mein verwirrender Teil). Da die Korrelation jedoch sehr chaotisch sein kann und in der Praxis nicht zu erwarten ist, ist mein Modell nur eine Annäherung an die DGP und die Korrelation mit anderen Variablen von Bedeutung.

β_{1} * x 1 + β_{2} * x 2

$\beta_1*x1+\beta_2*x2$

β_{2} * x 2

$\beta_2*x2$

β_{1} * x 1

$\beta_1*x1$

ting

Wenn Sie in die Mathematik einsteigen möchten, empfehle ich Bücher von David Belsley.

Peter Flom - Reinstate Monica

Super, vielen Dank !!! Nur gebeten , die Bücher aus der Bibliothek :)

ting

2

Warum wird in 3 das Vorzeichen von β2 positiv und im absoluten Wert viel größer als β1? Gibt es einen statistischen Grund dafür, dass β2 das Vorzeichen umdrehen kann und eine große Größe hat?

Die einfache Antwort ist, dass es keinen tiefen Grund gibt.

Die Art und Weise, darüber nachzudenken, ist, dass, wenn sich Multikollinearie dem Perfekt nähert, die spezifischen Werte, die Sie am Ende aus der Anpassung erhalten, immer mehr von immer kleineren Details der Daten abhängen. Wenn Sie dieselbe Datenmenge aus derselben zugrunde liegenden Verteilung abtasten und dann anpassen würden, könnten Sie völlig unterschiedliche angepasste Werte erhalten.

oneloop
quelle

Vorzeichenwechsel beim Hinzufügen einer weiteren Variablen in der Regression und mit viel größerer Größe

Antworten: