Wann muss die Verzögerung der abhängigen Variablen in ein Regressionsmodell einbezogen werden und welche Verzögerung?

14

Die Daten, die wir als abhängige Variable verwenden möchten, sehen folgendermaßen aus (es handelt sich um Zähldaten). Wir befürchten, dass die Regression, da sie eine zyklische Komponente und eine Trendstruktur aufweist, irgendwie voreingenommen ist.

Bildbeschreibung hier eingeben

Wir werden eine negative binomische Regression verwenden, falls dies hilft. Die Daten sind ein ausgeglichenes Panel, ein Dummy pro Person (Status). Das gezeigte Bild zeigt die Summe der abhängigen Variablen für alle Zustände, aber die meisten Zustände alleine haben ein ähnliches Verhalten. Wir ziehen ein Modell mit festen Effekten in Betracht. Die abhängigen Variablen sind nicht sehr stark korreliert. Ein Teil der Forschung besteht darin, eine unerwartete Beziehung zwischen diesen Variablen zu finden. Eine schwache Beziehung ist also eigentlich etwas Gutes.

  1. Was sind die genauen Gefahren, wenn eine Verzögerungsvariable der abhängigen Variablen nicht berücksichtigt wird?
  2. Wenn es notwendig ist, einen einzuschließen, gibt es einen Test, um zu wissen, welche.?

Die Implementierung erfolgt in R.

Hinweis : Ich habe diesen Beitrag gelesen, aber er hat nicht zu unserem Problem beigetragen.

Mauricio G Tec
quelle

Antworten:

14

Ein dynamisches Panel-Modell kann sinnvoll sein, wenn Sie ein Auge-für-Auge-Vergeltungsmodell für Tötungsdelikte haben. Wenn zum Beispiel die Mordrate größtenteils durch Bandenfehden verursacht wurde, könnten die Morde zum Zeitpunkt durchaus eine Funktion der Todesfälle zum Zeitpunkt t - 1 oder anderer Verzögerungen sein. tt1

Ich beantworte Ihre Fragen in unzulässiger Reihenfolge. Angenommen, der DGP ist

yit=δyit1+xitβ+μi+vit,

wobei die Fehler und v voneinander und untereinander unabhängig sind. Sie möchten testen, ob δ = 0 ist (Frage 2).μvδ=0

Wenn Sie OLS verwenden, ist es leicht zu sehen , dass und den ersten Teil des Fehlers korreliert sind, die OLS voreingenommen und inkonsistent macht, auch wenn es in keine serielle Korrelation ist v . Wir brauchen etwas Komplizierteres, um den Test durchzuführen.yit1v

Das nächste, was Sie versuchen könnten, ist der Schätzer für feste Effekte mit der Innentransformation, bei dem Sie die Daten transformieren, indem Sie den Durchschnitt , ˉ y i jeder Einheit von jeder Beobachtung subtrahieren . Dies löscht μ aus , aber dieser Schätzer leidet unter einer Nickell-Verzerrung , die nicht verschwindet, wenn die Anzahl der Beobachtungen N zunimmt, so dass sie für große N- und kleine T- Tafeln inkonsistent ist . Wenn jedoch Tyy¯iμNNTT wächst, erhalten Sie jedoch die Konsistenz von und β . Judson und Owen (1999) machen einige Simulationen mit N = 20 ,δβ und T = 5 , 10 , 20 , 30 und fanden heraus, dass die Vorspannung in & dgr; zunimmt und in T abnimmt. Sogar für T = 30 könnte die Vorspannung jedoch bis zu 20 % des wahren Koeffizientenwerts betragen. Das sind schlechte Nachrichtenbären! Abhängig von den Abmessungen Ihres Panels möchten Sie möglicherweise den internen FE-Schätzer vermeiden. Wenn δ > 0 ist , ist die Vorspannung negativ, so dass die Persistenz von y unterschätzt wird. Wenn die Regressoren mit der Verzögerung korreliert sind,wird auch β vorgespannt.N=20,100T=5,10,20,30δTT=3020%δ>0yβ

Ein weiterer einfacher FE Ansatz besteht darin, zunächst die Differenz-Daten , die den festen Effekt zu entfernen, und die Verwendung bis Instrument für Δ y i t - 1 = y i t - 1 - y i t - 2 . Sie verwenden auch x i t -yit2Δyit1=yit1yit2 als ein Instrument für sich. Anderson und Hsiao (1981)ist die kanonische Referenz. Dieser Schätzer ist konsistent (solange die erläuternden X s vorbestimmt sind und diexitxit1Xursprüngliche Fehlerausdrücke sind nicht seriell korreliert, aber nicht vollständig effizient, da nicht alle verfügbaren Momentbedingungen verwendet werden und nicht die Tatsache verwendet wird, dass der Fehlerausdruck jetzt differenziert wird. Dies wäre wahrscheinlich meine erste Wahl. Wenn Sie der Meinung sind, dass einem AR (1) -Prozess folgt, können Sie stattdessen die dritte und vierte Verzögerung von y verwenden.vy

Arellano und Bond (1991) leiten einen effizienteren Schätzer für generalisierte Momente (GMM) ab, der seitdem erweitert wurde, wobei einige der Annahmen gelockert wurden. Kapitel 8 von Baltagis Panel-Buch ist ein guter Überblick über diese Literatur, obwohl es, soweit ich das beurteilen kann, nicht um die Auswahl von Verzögerungen geht. Dies ist auf dem neuesten Stand der Technik, aber technisch anspruchsvoller.

Ich denke, das plmPaket in R enthält einige dieser Funktionen. Dynamic Panel-Modelle sind seit Version 10 in Stata enthalten , und SAS hat mindestens die GMM-Version . Keines davon ist ein Zähldatenmodell, aber das ist abhängig von Ihren Daten möglicherweise keine große Sache. Hier ist jedoch ein Beispiel für ein dynamisches GMM-Poisson-Panel-Modell in Stata.

Die Antwort auf Ihre erste Frage ist spekulativer. Wenn Sie das verzögerte y weglasseny und den ersten Unterschied weglassen, kann meines Erachtens immer noch konsistent geschätzt werden, wenn auch weniger genau, da die Varianz jetzt größer ist. Wenn dies der Parameter ist, den Sie interessieren, kann dies akzeptabel sein. Was Sie verlieren, ist, dass Sie nicht sagen können, ob es in Gebiet X viele Morde gab, weil es im letzten Monat viele waren oder weil Gebiet X eine Neigung zur Gewalt hat. Sie geben die Fähigkeit zur Unterscheidung zwischen staatlicher Abhängigkeit und unbemerkter Heterogenität auf (Frage 1). β

Dimitriy V. Masterov
quelle
Verwenden Sie also die Pegel als Instrument, wenn Sie eine differenzierte Reihe haben, und die Unterschiede, wenn Sie eine Reihe von Pegeln haben ?
Andy W
Wenn Sie den Index löschen, können Sie entweder Δ y t - 2 = y t - 2 - y t - 3 oder y t - 2 als Instrumente für die Differenz Δ y t - 1 = y t - 1 - y t - 2 verwenden . Arellano (1989) zeigt, dass der erste Ansatz einen Singularitätspunkt und große Varianzen für einen großen Bereich von Parameterwerten aufweist. Das Levels-Instrument hat keine von beiden, weshalb ich es empfohlen habeiΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V verwenden. Masterov