Was passiert, wenn die „Kontrollvariablen“ auch endogen sind?

13

Ich arbeite in der politischen Ökonomie, und viele Modelle enthalten "unschuldige" Kontrollvariablen wie Bevölkerung, Ungleichheit, koloniales Erbe usw., so dass der Autor Unparteilichkeit für seine unabhängige interessierende Variable beanspruchen kann.

Wenn jedoch eine dieser Kontrollvariablen für eine ausgelassene Variable endogen ist, beeinträchtigt dies nicht die Unparteilichkeit ALLER unabhängigen Variablen?

Wenn das stimmt, was können wir dann tun? Lassen Sie diese Kontrollvariablen weg und sie führen selbst zu einer fehlenden Variablenvorspannung. Fügen Sie diese hinzu und sie kontaminieren alles im Modell.

Beispiel: Ein Forscher möchte , wenn Ungleichheit führt zu Gewalt kennen, und er steuert , für einige Dinge:

Violence=Inequality+Growth+Development+ϵ
Angesichts der Tatsache, dass die Ungleichheit wahrscheinlich endogen ist (aufgrund der ausgelassenen Variablen Level of Altruism)) wird er versuchen, eine instrumentelle Variable für Ungleichheit zu finden . Aber ist es nicht wahrscheinlich, dass Wachstum und Entwicklung auch endogen sind (dh mit dem Grad des Altruismus korrelieren )?

Dieses Beispiel mag albern aussehen, aber ich spreche von politischer Ökonomie / Entwicklungsarbeit. Es spielen so viele Faktoren eine Rolle (die jedoch weggelassen wurden), dass ich befürchte, dass viele in der LHS enthaltene Variablen endogen sind. Oft sucht der Forscher jedoch nur nach einem Instrument für seine tierunabhängige Variable.

Heisenberg
quelle
Eine weitere zu berücksichtigende Sache ist das sogenannte Problem der "schlechten Kontrolle" - eine Situation, in der die Kontrolle selbst eine Ergebnisvariable ist. Ich empfehle Ihnen, Abschnitt 3.2.3 in Angrist und Pischkes "Mostly Harmless Econometrics" zu lesen, um sich mit diesem Thema vertraut zu machen und warum es wichtig ist, wenn Sie Ihre Frage besser verstehen möchten.
MauOlivares

Antworten:

10

"Aber wenn eine dieser Kontrollvariablen für eine ausgelassene Variable endogen ist, beeinträchtigt dies nicht die Unparteilichkeit ALLER unabhängigen Variablen?"

Ich möchte dies nicht zu sehr betonen, aber es ist erwähnenswert, dass dies im Allgemeinen nicht zutrifft. Die folgende Ableitung wird hoffentlich ein Verständnis für die von Ihnen erwähnte "Kontamination" vermitteln. Als einfaches Gegenbeispiel sei angenommen, dass der Datenerzeugungsprozess gegeben ist durch wobei Z nicht beobachtet wird. Sei C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0 und C o v ( X 1 , X 2 ) = 0 . Dann ist klar, dass X 2 "endogen" ist. Beachten Sie jedoch , dass unsere Schätzung von β 1 immer noch in Ordnung ist , da C o v ( X 1 , Z ) = 0 ist: plimCov(X2,Z)0Cov(X1,X2)=0X2Cov(X1,Z)=0β1 wobeiX * 1 =M2X1undM2=[I-X2(X ' 2 X2)-1X ' 2 ]. WeilCov(X1,X2)=0 ist, istX1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 . Also C o v ( X 1 , Z ) = 0 .X1=X1Cov(X1,Z)=0

"Was können wir tun?"

Eine der Hauptherausforderungen für eine gute Ökonometrie besteht darin, über mögliche Identifikationsstrategien nachzudenken. In der Art von Situation, die Sie beschreiben, gibt es wahrscheinlich nichts, was Sie tun können, als zu versuchen, das Problem auf eine andere Weise anzugehen.

jmbejara
quelle
Obwohl Sie technisch gesehen recht haben, möchte ich diesen Punkt nicht hervorheben. Ich würde eher sagen, dass wir im Allgemeinen nicht ausschließen können, dass eine der Variablen voreingenommen ist, anstatt in einigen Szenarien zu sagen, dass dies in Ordnung ist , da wir den DGP normalerweise nicht kennen.
FooBar
1) Können Sie zeigen Sie mir einen Hinweis , wo die β auf diese Weise abgeleitet wird? Das habe ich in meiner Ökonometrie nicht gelernt. 2) Wo verwenden Sie C o v ( X 1 , Z ) = 0 im Beweis? Es scheint, als wäre C o v ( X 1 , X - 2 ) = 0 ausreichend. 3) Ich stimme @FooBar zu, dass C o v ( X 1 , X 2 ) = 0 die Ausnahme und nicht die Norm sind. In der Tat, wenn Cβ^Cov(X1,Z)=0Cov(X1,X2)=0CÖv(X1,X2)=0 wir würden uns nicht die Mühe machen,in erster Liniefür X 2 zu steuern(außer um die Genauigkeit zu erhöhen). CÖv(X1,X2)=0X2
Heisenberg
@FooBar, ich stimme zu. Ich habe den Beitrag aktualisiert, um zu betonen, dass dies ein Sonderfall ist. Soweit es darum geht, die DGP nicht zu kennen, ist das richtig. Darum geht es aber nicht. Jede Analyse muss Annahmen über den DGP treffen, und die Qualität der Analyse hängt von der Qualität der Annahmen ab. Die Ableitung, die ich gegeben habe, dient nur dazu, ein Beispiel für die Annahmen (wenn auch sehr starke Annahmen) zu veranschaulichen, die Sie dahin bringen könnten, wohin Sie möchten.
Jmbejara
@Heisenberg: 1) Könnten Sie eine neue Frage dazu stellen? Wenn Sie nur die Ableitung kopieren und einfügen und Ihre Frage präsentieren, ist dies am besten. 2) wird benötigt, wenn ich sage, dass C o v ( X 1 , Z ) = 0 ist . 3) Du hast recht. Wenn wir daran interessiert sind, Y vorherzusagen , wäre das wichtig. Aber ja, das ist ein guter Punkt. Andererseits ist es vielleicht nützlich zu bemerken, dass die Größe der Verzerrung davon abhängt, wie korreliert Sie glauben, dass X 1 und X sindCÖv(X1,Z)=0CÖv(X1,Z)=0Y.X1 zu sein. X2
Jmbejara
1
@jmbejara Ich habe 1) als separate Frage gepostet . Bitte zögern Sie nicht, meine Frage / meinen Titel zu bearbeiten, da ich nicht weiß, wie ich den Titel in diesem Fall intelligent und nützlich für Googler formulieren soll.
Heisenberg,
6

Alles ist zu stark, aber wahrscheinlich einige. Dieses Problem wird als "Verschmieren" bezeichnet. Schauen Sie sich den Beweis in Greenes Vorlesungsskript auf Folie 5 an.

Emily Oster hat ein nettes Arbeitspapier (und einen Stata-Befehl psacalc), der helfen kann, die Voreingenommenheit zu begrenzen.

Dimitriy V. Masterov
quelle
5

Im Kontext der Least-Squares-Schätzung müssen wir versuchen, mit der möglichen Endogenität von Regressoren umzugehen, indem wir instrumentelle Variablen schätzen. Dieser Ansatz hängt nicht davon ab, dass nur ein endogener Regressor vorhanden ist, sondern möglicherweise mehrere. In einem solchen Fall müssen Sie natürlich mehr Instrumente finden, die die Dinge schwieriger machen - aber im Prinzip funktioniert die Methode genauso.

Die IV-Schätzung löst nicht das Problem der Verzerrung, sondern bietet nur dem Schätzer Konsistenz. Aber nichts löst das Problem der Bias-Bar-Exogenität selbst (und dann gibt es einige Methoden zur Bias-Reduktion). Wenn Sie sich jedoch eine andere SE-Site ansehen, Cross Validated , die sich mit Statistik befasst, werden Sie feststellen, dass erfahrene Statistiker der Eigenschaft der Unparteilichkeit nicht wirklich viel Gewicht beimessen. und auf Konsistenz für große Probeneigenschaften.

Alecos Papadopoulos
quelle
1
Der richtige Ansatz ist also, tatsächlich Instrumente für alle endogenen Variablen zu finden, oder?
Heisenberg
1
Ja, das ist der Weg.
Alecos Papadopoulos
5

Dies ist ein Beispiel für das, was der Statistiker Andrew Gelman als "Trugschluss beim Kontrollieren eines Zwischenergebnisses" bezeichnet. Hier ist seine Beschreibung dieses Trugschlusses, der auftaucht, wenn Forscher fragen, ob mehr Töchter Ihre Politik ändern. Die Entscheidung, ein zweites Kind zu haben, hängt notwendigerweise von der vorherigen Entscheidung ab, das erste Kind zu haben, und scheint daher ein klares Beispiel für die Kontrolle der Entscheidungsvariablen zu sein, die endogen war.

In den letzten Jahren wurden mehrere Studien durchgeführt, die sich mit den wirtschaftlichen Entscheidungen von Eltern von Söhnen im Vergleich zu Eltern von Töchtern befassten. Allen Studien ist gemeinsam, dass sie die Gesamtzahl der Kinder kontrollieren. Auf den ersten Blick erscheint es sinnvoll, die Gesamtzahl der Kinder zu kontrollieren. Es besteht jedoch eine Schwierigkeit darin, dass die Gesamtzahl der Kinder ein Zwischenergebnis ist, und die Steuerung dafür (ob durch Untersetzen der Daten auf der Grundlage von #kids oder durch Verwenden von #kids als Steuervariable in einem Regressionsmodell) die Schätzung verzerren kann der kausalen Wirkung eines Sohnes (oder einer Tochter).

Um dies zu sehen, nehmen wir (hypothetisch) an, dass politisch konservative Eltern eher Söhne wollen und dass sie (hypothetisch) eher versuchen, ein drittes Kind zu bekommen, wenn sie zwei Töchter haben. Im Vergleich dazu machen Liberale eher bei zwei Töchtern halt. In diesem Fall, wenn Sie sich Daten zu Familien mit 2 Töchtern ansehen, sind die Konservativen unterrepräsentiert, und die Daten könnten einen Zusammenhang zwischen Töchtern und politischem Liberalismus aufzeigen - auch wenn die Töchter überhaupt keine Wirkung haben! ...

Eine Lösung besteht darin, den konservativen Standardansatz (im statistischen Sinne!) Für die kausale Folgerung anzuwenden, der darin besteht, auf Ihre Behandlungsvariable (Geschlecht des Kindes) zurückzugreifen, aber nur Dinge zu kontrollieren, die vor der Geburt des Kindes geschehen.Zum Beispiel könnte man Eltern, deren erstes Kind ein Mädchen ist, mit Eltern vergleichen, deren erstes Kind ein Junge ist. Man kann auch die zweite Geburt betrachten, indem man Eltern, deren zweites Kind ein Mädchen ist, mit denen vergleicht, deren zweites Kind ein Junge ist, der das Geschlecht des ersten Kindes kontrolliert. Und so weiter für das dritte Kind usw.

Macht es dich konservativer, Söhne zu haben? Vielleicht, vielleicht nicht. Ein Problem bei der Steuerung für ein Zwischenergebnis

In Bezug auf Ihren Kommentar "Lassen Sie diese Kontrollvariablen weg, und sie führen dazu, dass die Variable selbst nicht beeinflusst wird." Scheint dies davon abzuhängen, welche Art von Instrument Sie erhalten. Ein gutes Instrument, das die Anforderungen wirklich erfüllt, muss in der zweiten Stufe unabhängig von der Fehlerbedingung und unabhängig von allem sein, was Sie direkt steuern . Das heißt, das Instrument ändert Y nur durch X. Ein geeignetes Instrument für Ungleichheit muss also unabhängig von Wachstum und Entwicklung sein (viel Glück!), Wenn wir glauben, dass die Gewaltgleichung die Strukturgleichung für Gewalt ist.

BKay
quelle
1

Wie in anderen Beiträgen bereits erwähnt, können endogene Regressoren alle Parameterschätzungen in der Regression kontaminieren, wenn die Regressoren korrelieren.

Darüber hinaus kann es schwierig erscheinen, sich eine Situation vorzustellen, in der beispielsweise und X 2 korreliert sind und X 2 endogen ist, X 1 jedoch nicht.X1X2X2X1

Jedoch geringer als die erforderlich ist zur Gewährleistung der Kohärenz von ß 1 selbst dann , wenn X 2 endogen ist und X 1 und X 2 sind , korrelieren.β^1X2X1X2

Betrachten Sie das folgende Modell (analog zu @ jmbejaras Notation)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX21nx1(k)z(l)p0(k,l)

X2X1X1ZX2

1nx1(k)Q.X2z(l)p0
(k,l)Q.X2X2Q.X2[ichn-X2(X2X2)-1X2]β1

β^1=(X1Q.X2X1)-1X1Q.X2y=β1+(X1Q.X2X1)-1X1Q.X2X2p0β2+(X1Q.X2X1)-1X1Q.X2Zp0γ+(X1Q.X2X1)-1X1Q.X2εp0
X1X2
Murphy
quelle