Dateneinrichtung für Unterschiede

Welches Setup ist für einen Unterschied im Differenzregressionsmodell mit geeignet?

$Y_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist}$

wobei T ein Dummy ist, der gleich 1 ist, wenn die Beobachtung aus der Behandlungsgruppe stammt, und d ein Dummy ist, der in dem Zeitraum nach dem Auftreten der Behandlung gleich 1 ist

1) Zufallsstichproben aus jeder Gruppe und Zeit (dh 4 Zufallsstichproben)

oder

2) Paneldaten, bei denen dieselben Einheiten über beide Zeiträume verfolgt werden?

Ist es wichtig und wenn nicht, kann OLS in beiden Fällen verwendet werden?

regression econometrics difference-in-difference B_Miner
quelle

Ich habe (1) noch nicht gesehen - die Analyse scheint immer = (2). Ich bin mir nicht sicher, warum Sie das tun würden (1). Aber ich habe nicht viele DID-Studien gesehen.

Charles

Beispiele für 1 sind in Wooldridge Introductory Econometrics Abschnitt 13.2

B_Miner

Eine wichtige Annahme von Difference-in-Differences (DID) ist, dass beide Gruppen vor der Behandlung einen gemeinsamen Trend in der Ergebnisvariablen aufweisen. Dies ist wichtig, um zu argumentieren, dass die Änderung für die behandelte Gruppe auf die Behandlung zurückzuführen ist und nicht darauf, dass sich die beiden Gruppen bereits von Anfang an voneinander unterschieden.

Wenn Sie vor und nach der Behandlung verschiedene Personen befragen, wird das Argument geschwächt, es sei denn, Ihre Stichproben aus den Behandlungs- und Kontrollgruppen sind tatsächlich zufällig und groß. Es kann also vorkommen, dass Sie jemand fragt: "Wie können Sie sicherstellen, dass der Effekt auf die Behandlung zurückzuführen ist und nicht nur, weil Sie verschiedene Personen befragt haben?" - und das wird schwer zu beantworten sein. Diese Frage können Sie vermeiden, indem Sie Paneldaten verwenden, da Sie dort im Laufe der Zeit dieselben statistischen Einheiten verfolgen und dies im Allgemeinen der solidere Ansatz ist.

Um Ihre letzte Frage zu beantworten: Ja, die Daten sind wichtig, aber Sie können OLS sicherlich verwenden, um Ihre obige Gleichung zu schätzen. Eine wichtige Sache, die in der Vergangenheit oft übersehen wurde, ist die korrekte Schätzung der Standardfehler. Wenn Sie sie nicht korrigieren, werden sie durch die serielle Korrelation um einen guten Betrag unterschätzt, und Sie werden signifikante Effekte feststellen, auch wenn Sie dies wahrscheinlich nicht tun sollten. Als Referenz und Vorschläge zur Behandlung dieses Problems siehe Bertrand et al. (2004) "Wie sehr sollten wir Differenzen-in-Differenzen-Schätzungen vertrauen?" .

Wenn Sie über aggregierte Daten verfügen (z. B. auf Landesebene) oder wenn Sie Ihre Daten problemlos aggregieren können und eine neuere ökonometrische Methode als DID verwenden möchten, sollten Sie sich Abadie et al. (2010) "Synthetische Kontrollmethoden für vergleichende Fallstudien" . Die synthetische Kontrollmethode wird heutzutage zunehmend in der Forschung eingesetzt und es gibt gut dokumentierte Routinen für R und Stata. Vielleicht ist das auch für Sie interessant.

Andy
quelle

Das ist großartig, Andy! Kann ich zusammenfassen, indem ich sage, dass beide Datenkonfigurationen akzeptabel sind, dass Paneldaten jedoch die Argumentation über die Annahmen einfacher machen? Dass beide von OLS angepasst werden können, aber dass die Standardfehler von (insbesondere das von mir angenommene Panel-Daten-Setup) aufgrund einer möglichen seriellen Korrelation fraglich sind. Wäre ein Panel-Setup mit Newey West SE eine gute Lösung?

B_Miner

Ja, für den ersten Datentyp benötigen Sie mehr und starke Annahmen. Für die Standardfehler sollte die Newey West-Korrektur funktionieren. Tatsächlich ist es analog zu einer der von Bertrand et al. (Sie verwenden gruppierte Standardfehler). Eine neuere Methode verwendet den Bootstrap, der ziemlich gut funktioniert (siehe rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). Hoffe das hilft!

Andy

Dateneinrichtung für Unterschiede

Antworten: