Um Ihre erste Frage zu beantworten, Sie Recht, dass es sich bei der Stichprobenauswahl um eine bestimmte Form der Endogenität handelt (siehe Antonakis et al. 2010 für einen guten Überblick über die Endogenität und die gängigen Arzneimittel). Sie sind jedoch nicht der Meinung, dass die Wahrscheinlichkeit einer Behandlung unzutreffend ist ist die endogene Variable, da es sich um die Behandlungsvariable selbst ("nicht zufällige Behandlungszuordnung") handelt - und nicht um die Wahrscheinlichkeit, behandelt zu werden -, die bei der Stichprobenauswahl endogen ist. Erinnern Sie sich, dass Endogenität sich auf eine Situation bezieht, in der Sie einen Kausalzusammenhang zwischen Faktor X und Faktor Y falsch identifiziert haben, wenn der beobachtete „Zusammenhang“ tatsächlich auf einen anderen Faktor Z zurückzuführen ist, der sowohl X als auch Y beeinflusst. Anders ausgedrückt, gegeben ein Regressionsmodell :
yi=β0+β1xi+...+ϵi
Endogenität tritt auf, wenn einer oder mehrere Ihrer Prädiktoren mit dem Fehlerterm im Modell zusammenhängen. Das heißt, wenn .Cov(x,ϵ)≠0
Die häufigsten Ursachen für Endogenität sind:
- Ausgelassene Variablen (einige Dinge können wir einfach nicht messen)
- Motivation / Wahl
- Fähigkeit / Talent
- Selbstauswahl
- Messfehler
(wir möchten einschließen , aber wir beobachten nur x j ∗ )xjxj∗
- Gleichzeitigkeit / Bidirektionalität (bei Kindern unter 5 Jahren kann der Zusammenhang zwischen dem Ernährungsstatusindikator „Gewicht nach Alter“ und der Frage, ob das Kind kürzlich krank war, gleichzeitig bestehen.
Unterschiedliche Arten von Problemen erfordern leicht unterschiedliche Lösungen. Hier liegt der Unterschied zwischen IV- und Heckman-Korrekturen. Natürlich gibt es Unterschiede in der zugrunde liegenden Mechanik dieser Methoden, aber die Prämisse ist die gleiche: Die Endogenität sollte im Idealfall über eine Ausschlussbeschränkung beseitigt werden, dh ein oder mehrere Instrumente im Fall von IV oder einer Variablen, die die Auswahl beeinflusst, jedoch nicht das Ergebnis im Fall von Heckman.
Um Ihre zweite Frage zu beantworten, Sie über die Unterschiede bei den Arten von Datenbeschränkungen nachdenken, die zur Entwicklung dieser Lösungen geführt haben. Ich denke gerne, dass der Instrumentalvariablen (IV) -Ansatz verwendet wird, wenn eine oder mehrere Variablen endogen sind und es einfach keine guten Proxys gibt, um die Endogenität zu beseitigen, aber die Kovariaten und Ergebnisse werden für alle Beobachtungen beobachtet. Heckman-Korrekturen werden dagegen verwendet, wenn Sie eine Kürzung haben, dh die Informationen werden für diejenigen in der Stichprobe nicht beachtet, bei denen der Wert der Auswahlvariablen == 0 ist.
Der Instrumentalvariablen (IV) -Ansatz
Denken Sie an das klassische ökonometrische Beispiel für eine IV-Regression mit dem 2SLS-Schätzer (Two Stage Least Squares): die Auswirkung von Bildung auf das Einkommen.
(1)Earningsi=β0+β1OwnEdi+ϵi
Hier ist das Bildungsniveau endogen, da es zum Teil von der Motivation und den Fähigkeiten des Einzelnen abhängt, die sich auch auf das Einkommen eines Menschen auswirken. Motivation und Fähigkeit werden normalerweise nicht in Haushalts- oder Wirtschaftsumfragen gemessen. Gleichung 1 kann daher so geschrieben werden, dass sie ausdrücklich Motivation und Fähigkeit enthält:
Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
MotivAbil
Earningsi=β0+β1OwnEdi+ui
ui=β2Motivi+β3Abili+ϵi
Daher wäre eine naive Einschätzung der Auswirkung von Bildung auf das Einkommen über OLS voreingenommen. Diesen Teil kennst du schon.
z
- zCov(z,x)≠0
- zCov(z,y)=0
- zzCov(z,u)=0
OwnEdMomEdDadEdOwnEdˆEarningsEarningsOwnEd
Heckman-Korrekturen
Wie wir bereits festgestellt haben, ist die Auswahl nicht zufälliger Stichproben eine bestimmte Art von Endogenität. In diesem Fall gibt die ausgelassene Variable an, wie Personen in die Stichprobe aufgenommen wurden. Wenn Sie ein Problem mit der Stichprobenauswahl haben, wird Ihr Ergebnis in der Regel nur für diejenigen beobachtet, für die die Stichprobenauswahl durchgeführt wurde variable == 1
. Dieses Problem ist auch als "zufälliges Abschneiden" bekannt, und die Lösung ist allgemein als Heckman-Korrektur bekannt. Das klassische Beispiel in der Ökonometrie ist das Lohnangebot von verheirateten Frauen:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi
Wages
Wage∗i=Xβ′+ϵi
LaborForce∗i=Zγ′+νi
Wage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
λ^λ^λ^λ^ statistisch signifikant von Null abweicht, müssen Sie die Koeffizienten aus dem korrigierten Modell melden.
Verweise
- Antonakis, John, Samuel Bendahan, Philippe Jacquart und Rafael Lalive. 2010. „Über das Erheben von Schadensursachen: Eine Überprüfung und Empfehlungen.“ The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Einführende Ökonometrie: Ein moderner Ansatz. 4th ed. Mason, OH, USA: Südwest, Cengage Learning.
Man sollte zwischen dem spezifischen Heckman-Stichprobenauswahlmodell (bei dem nur eine Stichprobe beobachtet wird) und Heckman-Korrekturen für die Selbstselektion unterscheiden, die auch für den Fall funktionieren können, bei dem die beiden Stichproben beobachtet werden. Letzteres wird als Kontrollfunktionsansatz bezeichnet und umfasst in Ihrer zweiten Stufe einen Begriff, der die Endogenität kontrolliert.
Nehmen wir einen Standardfall mit einer endogenen Dummy-Variablen D, einem Instrument Z:
Beide Ansätze durchlaufen eine erste Stufe (D auf Z). IV verwendet ein Standard-OLS (auch wenn D ein Dummy ist) Heckman verwendet ein Probit. Abgesehen davon liegt der Hauptunterschied in der Art und Weise, wie sie diese erste Stufe in die Hauptgleichung einsetzen:
Der Vorteil des Heckman-Verfahrens besteht darin, dass es einen direkten Test für die Endogenität bietet: den Koeffizientenβ2 . Andererseits beruht das Heckman-Verfahren auf der Annahme einer gemeinsamen Normalität der Fehler, während die IV keine solche Annahme trifft.
Sie haben also die Standardgeschichte, dass bei normalen Fehlern die Steuerfunktion effizienter ist (insbesondere, wenn anstelle der hier gezeigten zwei Schritte die MLE verwendet wird) als die IV, aber wenn die Annahme nicht zutrifft, wäre IV besser. Da Forscher der Annahme der Normalität gegenüber misstrauischer geworden sind, wird die IV häufiger verwendet.
quelle
Von Heckman, Urzua und Vytlacil (2006):
Beispiel für ein Auswahlbias : Berücksichtigen Sie die Auswirkungen einer Politik auf das Ergebnis eines Landes (z. B. BIP). Wenn die Länder, die in Bezug auf das Unbeobachtbare auch ohne die Politik gut abgeschnitten hätten, diejenigen sind, die die Politik übernehmen, dann sind die OLS-Schätzungen voreingenommen.
Zwei Hauptansätze wurden gewählt, um dieses Problem zu lösen: (a) Auswahlmodelle und (b) Modelle für instrumentelle Variablen.
Der Auswahlansatz modelliert Ebenen von bedingten Mitteln. Der IV-Ansatz modelliert die Steigungen der bedingten Mittel. IV identifiziert nicht die in Auswahlmodellen geschätzten Konstanten.
Der IV-Ansatz ist nicht an D (die Behandlung) gebunden. Der Auswahlschätzer (Steuerfunktion) identifiziert die bedingten Mittel unter Verwendung von Steuerfunktionen.
Bei Verwendung von Steuerfunktionen mit Krümmungsannahmen ist keine Ausschlussbeschränkung erforderlich (nicht erforderlich)Z≠ X ) im Auswahlmodell. Indem man eine funktionale Form für die Verteilung der Fehlerausdrücke annimmt, schließt man die Möglichkeit aus, dass das bedingte Mittel der Ergebnisgleichung der bedingten Kontrollfunktion entspricht, und somit können Sie die Auswahl ohne Ausschlussbeschränkungen korrigieren. Siehe auch Heckman und Navarro (2004).
quelle