Verzerrt die Anpassung für überflüssige Variablen die OLS-Schätzungen?

8

Die übliche Lehrbuchbehandlung zum Anpassen überflüssiger Variablen in OLS besagt, dass der Schätzer immer noch unvoreingenommen ist, aber möglicherweise eine größere Varianz aufweist (siehe z. B. Greene, Econometric Analysis, 7. Aufl., S. 58).

Neulich bin ich auf Judea Perles Behandlung von Simpsons Paradox gestoßen und auf eine schöne Webseite , die simuliert, wie "die schrittweise Einbeziehung von Kontrollvariablen in ein Regressionsmodell das Vorzeichen eines geschätzten Kausalzusammenhangs in jedem Schritt ändert". Für mich widerspricht dies irgendwie der obigen Aussage. Ich bin der Meinung, dass dies ein sehr subtiles (wenn auch unglaublich wichtiges) Problem sein könnte, daher wäre jeder Hinweis auf weitere Literatur sehr hilfreich. Was mir besonders auffällt, ist, dass Greene behauptet, er habe einen Beweis für seine Einschätzung.

Julian Schuessler
quelle

Antworten:

10

Es gibt keinen Widerspruch.

Der erste Absatz dort spricht von überflüssigen Variablen.

Wenn das Simpson-Paradoxon zutrifft, sind die Variablen nicht überflüssig.

Glen_b -Reinstate Monica
quelle
1
In dem auf der Website gestellten Problem ist die Schätzung verzerrt, wenn man Z1 und Z2 berücksichtigt. Z1 scheint zwar nicht überflüssig zu sein, aber was ist mit Z2? Konstruktionsbedingt wirkt es sich weder auf X noch auf Y aus, doch seine Einbeziehung verzerrt die Schätzung.
Julian Schuessler
2
Abhängig von den genauen Beziehungen zwischen diesen Variablen kann eine überflüssige Variable mit extrem hoher Korrelation mit einer der anderen unabhängigen Variablen zu Vorzeichenumkehrungen führen. Dies wird auch im Greene-Buch im Teil über Multikollinearität behandelt. Er gibt an, dass ein hohes Maß an Multikollinearität aufgrund der nahezu Singularität zu instabilen und unzuverlässigen Koeffizienten führen kann.
Andy
Ich hätte erwähnen sollen, dass der vorherige Kommentar eher für @JulianSchuessler war. Für Glen_bs Antwort +1
Andy
3
d
@LizzieSilver: Danke, dies ist auch mein aktuelles Verständnis, nachdem ich mich eingehender mit Perles Arbeit befasst habe: Wenn man alle Backdoor-Pfade blockiert, indem man die entsprechenden Regressoren einbezieht, erhält man eine unvoreingenommene Schätzung. Aus Pearl's Arbeit geht jedoch auch absolut klar hervor, dass die Anpassung an die falschen Variablen, die sowohl mit X als auch mit Y korreliert sein könnten, die Schätzung des Kausaleffekts der interessierenden Variablen verzerrt. Ich frage mich also, was ich mit dem üblichen Beweis der Unparteilichkeit anfangen soll. Vielleicht ist die falsche Regression unvoreingenommen, aber der Koeffizient darin entspricht nicht den kausalen Effekten, sondern etwas anderem?
Julian Schuessler
5

Betrachten Sie ein postuliertes lineares Regressionsmodell

yi=b0+b1X1i+b2X2i+ui,i=1,...,n

Aus algebraischen Gründen (und ohne stochastische Annahmen) ist der OLS-Schätzer in Matrixnotation

b^=b+(XX)1Xu

Sein von der Regressormatrix abhängiger Erwartungswert ist daher

E(b^X)=b+(XX)1XE(uX)

E(uX)=0

E(b^X)=b+0E(b^)=b

unter Verwendung auch des Gesetzes der iterierten Erwartungen.

X2

X2yX1X2

Alecos Papadopoulos
quelle