In einer Längsschnittstudie werden die Ergebnisse der Einheiten zu Zeitpunkten mit insgesamt festen Messanlässen wiederholt gemessen (fest = Messungen an Einheiten werden gleichzeitig durchgeführt). i t m
Die Einheiten werden zufällig entweder einer Behandlung oder einer Kontrollgruppe . Ich möchte den durchschnittlichen Effekt der Behandlung abschätzen und testen, dh wobei die Erwartungen über Zeit und Personen hinweg berücksichtigt werden. Ich erwäge, für diesen Zweck ein Mehrebenenmodell mit festen Anlässen (gemischte Effekte) zu verwenden:G = 0 A T E = E ( Y | G = 1 ) - E ( Y | G = 0 ) ,
mit der Achsenabschnitt, die , ein zufälliger Achsenabschnitt über Einheiten und der Rest.β A T E u e
Jetzt denke ich über ein alternatives Modell nach
welches die festen Effekte für jede Gelegenheit wobei Dummy wenn und sonst. Zusätzlich enthält dieses Modell eine Wechselwirkung zwischen Behandlung und Zeit mit den Parametern . Dieses Modell berücksichtigt also, dass sich die Wirkung von Laufe der Zeit unterscheiden kann. Dies ist an sich schon informativ, aber ich glaube, dass es auch die Genauigkeit der Schätzung der Parameter erhöhen sollte, da die Heterogenität in berücksichtigt wird. t d t = 1 j = t 0 γ G Y.
In diesem Modell scheint der -Koeffizient jedoch nicht mehr der zu entsprechen. Stattdessen repräsentiert es die ATE beim ersten Mal ( ). Die Schätzung von möglicherweise effizienter als , repräsentiert jedoch nicht mehr die . ATEt=1 ˜ β βATE.
Meine Fragen sind :
- Wie lässt sich der Behandlungseffekt in diesem Längsschnittstudiendesign am besten abschätzen?
- Muss ich Modell 1 verwenden oder gibt es eine Möglichkeit, Modell 2 (möglicherweise effizienter) zu verwenden?
- Gibt es eine Möglichkeit, dass die Interpretation der und die anlassspezifische Abweichung hat (z. B. mithilfe der Effektcodierung)? ATEγ
Antworten:
Beantwortung Ihrer Frage "Ich frage mich, wie ich die ATE aus Modell 2 herausholen kann" in den Kommentaren:
Erstens ist in Ihrem Modell 2 nicht alles identifizierbar, was zu dem Problem des in der Entwurfsmatrix führt. Es ist notwendig, eine Ebene zu , beispielsweise unter der Annahme von für . Das heißt, unter Verwendung der Kontrastcodierung und unter der Annahme, dass der Behandlungseffekt in Periode 1 0 ist. In R wird der Interaktionsterm mit dem Behandlungseffekt in Periode 1 als Referenzniveau codiert, und dies ist auch der Grund, warum hat die Interpretation des Behandlungseffekts in Periode 1. In SAS wird der Behandlungseffekt in Periode als Referenzniveau codiert, dann hat die Interpretation des Behandlungseffekts in Periodeγ j = 0 j = 1 ˜ β m ˜ β mγj γj= 0 j = 1 β~ m β~ m , nicht mehr Periode 1.
Angenommen, der Kontrast wird auf R-Weise erzeugt, dann haben die für jeden Interaktionsterm geschätzten Koeffizienten (ich werde dies immer noch mit , obwohl es nicht genau das ist, was Sie in Ihrem Modell definiert haben) die Interpretation der Behandlungseffektdifferenz zwischen dem Zeitraum und Zeitraum 1. Bezeichnen Sie ATE in jedem Zeitraum , dann für . Daher ein Schätzer für heißt . (Ignoriert den Notationsunterschied zwischen dem wahren Parameter und dem Schätzer selbst, weil Faulheit) Und natürlich Ihr j A T E j γ j = A T E j - A T E 1γj j A T E.j γj= A T E.j- A T E.1 j = 2 , … , m A T E.j β~+ γj A T E =β= 1m∑mj = 1A T E.j= β~+ ( β~+ γ2) + ⋯ + ( β~+ γm)m= β~+ 1m( γ2+ ⋯ + γm) .
Ich habe eine einfache Simulation in R durchgeführt, um dies zu überprüfen:
Und die Ergebnisse bestätigen dies:
Ich weiß nicht, wie man die Kontrastcodierung in Modell 2 oben direkt ändert. Um zu veranschaulichen, wie man eine lineare Funktion der Interaktionsterme direkt verwenden kann und wie man den Standardfehler erhält, habe ich das Multcomp-Paket verwendet:
Und hier ist die Ausgabe:
Ich denke, der Standardfehler wird durch wobei die obige lineare Kombinationsform und die geschätzte Varianz-Kovarianz-Matrix der Koeffizienten aus Modell 3 ist. wVw V.^wT.- -- -- -- -- -√ w V.
Abweichungscodierung
Eine andere Möglichkeit, direkt mit der Interpretation von besteht in der Verwendung der Abweichungscodierung , sodass spätere Kovariaten den Vergleich : ATEATEj-ATE.β~ A T E. A T E.j- A T E.
Ausgabe:
quelle
beta_t
Bei der ersten Frage verstehe ich, dass "ausgefallene" Wege nur dann erforderlich sind, wenn nicht sofort ersichtlich ist, dass die Behandlung unabhängig von möglichen Ergebnissen ist. In diesen Fällen müssen Sie argumentieren, dass ein Aspekt der Daten eine Annäherung der zufälligen Zuordnung zur Behandlung ermöglicht, wodurch wir zu instrumentellen Variablen, Regressionsdiskontinuität usw. gelangen.
In Ihrem Fall Einheiten werden randomisiert einer Behandlung zugewiesen, so scheint es glaubhaft , dass die Behandlung unabhängig von möglichen Ergebnissen ist. Dann können wir die Dinge einfach halten: Schätzen Sie Modell 1 mit gewöhnlichen kleinsten Quadraten, und Sie haben eine konsistente Schätzung der ATE. Da Einheiten der Behandlung zufällig zugewiesen werden, ist dies einer der wenigen Fälle, in denen eine Annahme mit zufälligen Effekten glaubwürdig ist.
quelle