Wann muss die Verzögerung der abhängigen Variablen in ein Regressionsmodell einbezogen werden und welche Verzögerung?

Die Daten, die wir als abhängige Variable verwenden möchten, sehen folgendermaßen aus (es handelt sich um Zähldaten). Wir befürchten, dass die Regression, da sie eine zyklische Komponente und eine Trendstruktur aufweist, irgendwie voreingenommen ist.

Bildbeschreibung hier eingeben

Wir werden eine negative binomische Regression verwenden, falls dies hilft. Die Daten sind ein ausgeglichenes Panel, ein Dummy pro Person (Status). Das gezeigte Bild zeigt die Summe der abhängigen Variablen für alle Zustände, aber die meisten Zustände alleine haben ein ähnliches Verhalten. Wir ziehen ein Modell mit festen Effekten in Betracht. Die abhängigen Variablen sind nicht sehr stark korreliert. Ein Teil der Forschung besteht darin, eine unerwartete Beziehung zwischen diesen Variablen zu finden. Eine schwache Beziehung ist also eigentlich etwas Gutes.

Was sind die genauen Gefahren, wenn eine Verzögerungsvariable der abhängigen Variablen nicht berücksichtigt wird?

Wenn es notwendig ist, einen einzuschließen, gibt es einen Test, um zu wissen, welche.?

Die Implementierung erfolgt in R.

Hinweis : Ich habe diesen Beitrag gelesen, aber er hat nicht zu unserem Problem beigetragen.

autocorrelation panel-data fixed-effects-model trend lags Mauricio G Tec
quelle

Ein dynamisches Panel-Modell kann sinnvoll sein, wenn Sie ein Auge-für-Auge-Vergeltungsmodell für Tötungsdelikte haben. Wenn zum Beispiel die Mordrate größtenteils durch Bandenfehden verursacht wurde, könnten die Morde zum Zeitpunkt durchaus eine Funktion der Todesfälle zum Zeitpunkt oder anderer Verzögerungen sein. $t$ $t-1$

Ich beantworte Ihre Fragen in unzulässiger Reihenfolge. Angenommen, der DGP ist

y_{i t} = δ y_{i t - 1} + x_{i t}^{'} β + μ_{i} + v_{i t},

$\begin{equation} y_{it}=\delta y_{it-1}+x_{it}^{\prime}\beta+\mu_{i}+v_{it}, \end{equation}$

wobei die Fehler und voneinander und untereinander unabhängig sind. Sie möchten testen, ob (Frage 2). $\mu$ $v$ $\delta = 0$

Wenn Sie OLS verwenden, ist es leicht zu sehen , dass und den ersten Teil des Fehlers korreliert sind, die OLS voreingenommen und inkonsistent macht, auch wenn es in keine serielle Korrelation ist . Wir brauchen etwas Komplizierteres, um den Test durchzuführen. $y_{it-1}$ $v$

Das nächste, was Sie versuchen könnten, ist der Schätzer für feste Effekte mit der Innentransformation, bei dem Sie die Daten transformieren, indem Sie den Durchschnitt , jeder Einheit von jeder Beobachtung subtrahieren . Dies löscht , aber dieser Schätzer leidet unter einer Nickell-Verzerrung , die nicht verschwindet, wenn die Anzahl der Beobachtungen zunimmt, so dass sie für große und kleine Tafeln inkonsistent ist . Wenn jedoch $y$ $\bar y_{i}$ $\mu$ $N$ $N$ $T$ $T$ wächst, erhalten Sie jedoch die Konsistenz von und . Judson und Owen (1999) machen einige Simulationen mit $\delta$ $\beta$ und und fanden heraus, dass die Vorspannung in zunimmt und in abnimmt. Sogar für könnte die Vorspannung jedoch bis zu des wahren Koeffizientenwerts betragen. Das sind schlechte Nachrichtenbären! Abhängig von den Abmessungen Ihres Panels möchten Sie möglicherweise den internen FE-Schätzer vermeiden. Wenn , ist die Vorspannung negativ, so dass die Persistenz von unterschätzt wird. Wenn die Regressoren mit der Verzögerung korreliert sind,wird auch vorgespannt. $N=20,100$ $T=5,10,20,30$ $\delta$ $T$ $T=30$ $20\%$ $\delta > 0$ $y$ $\beta$

Ein weiterer einfacher FE Ansatz besteht darin, zunächst die Differenz-Daten , die den festen Effekt zu entfernen, und die Verwendung bis Instrument für . Sie verwenden auch $y_{it-2}$ $\Delta y_{it-1} = y_{it-1}-y_{it-2}$ als ein Instrument für sich. Anderson und Hsiao (1981)ist die kanonische Referenz. Dieser Schätzer ist konsistent (solange die erläuternden s vorbestimmt sind und die $x_{it}-x_{it-1}$ $X$ ursprüngliche Fehlerausdrücke sind nicht seriell korreliert, aber nicht vollständig effizient, da nicht alle verfügbaren Momentbedingungen verwendet werden und nicht die Tatsache verwendet wird, dass der Fehlerausdruck jetzt differenziert wird. Dies wäre wahrscheinlich meine erste Wahl. Wenn Sie der Meinung sind, dass einem AR (1) -Prozess folgt, können Sie stattdessen die dritte und vierte Verzögerung von verwenden. $v$ $y$

Arellano und Bond (1991) leiten einen effizienteren Schätzer für generalisierte Momente (GMM) ab, der seitdem erweitert wurde, wobei einige der Annahmen gelockert wurden. Kapitel 8 von Baltagis Panel-Buch ist ein guter Überblick über diese Literatur, obwohl es, soweit ich das beurteilen kann, nicht um die Auswahl von Verzögerungen geht. Dies ist auf dem neuesten Stand der Technik, aber technisch anspruchsvoller.

Ich denke, das plmPaket in R enthält einige dieser Funktionen. Dynamic Panel-Modelle sind seit Version 10 in Stata enthalten , und SAS hat mindestens die GMM-Version . Keines davon ist ein Zähldatenmodell, aber das ist abhängig von Ihren Daten möglicherweise keine große Sache. Hier ist jedoch ein Beispiel für ein dynamisches GMM-Poisson-Panel-Modell in Stata.

Die Antwort auf Ihre erste Frage ist spekulativer. Wenn Sie das verzögerte weglassen $y$ und den ersten Unterschied weglassen, kann meines Erachtens immer noch konsistent geschätzt werden, wenn auch weniger genau, da die Varianz jetzt größer ist. Wenn dies der Parameter ist, den Sie interessieren, kann dies akzeptabel sein. Was Sie verlieren, ist, dass Sie nicht sagen können, ob es in Gebiet X viele Morde gab, weil es im letzten Monat viele waren oder weil Gebiet X eine Neigung zur Gewalt hat. Sie geben die Fähigkeit zur Unterscheidung zwischen staatlicher Abhängigkeit und unbemerkter Heterogenität auf (Frage 1). $\beta$

Dimitriy V. Masterov
quelle

Verwenden Sie also die Pegel als Instrument, wenn Sie eine differenzierte Reihe haben, und die Unterschiede, wenn Sie eine Reihe von Pegeln haben ?

Andy W

Wenn Sie den Index

löschen, können Sie entweder

oder

als Instrumente für die Differenz

. Arellano (1989) zeigt, dass der erste Ansatz einen Singularitätspunkt und große Varianzen für einen großen Bereich von Parameterwerten aufweist. Das Levels-Instrument hat keine von beiden, weshalb ich es empfohlen habe

i

$i$

Δ y_{t - 2} = y_{t} - 2 - y_{t - 3}

$\Delta y_{t−2}=y_{t}−2−y_{t−3}$

y_{t - 2}

$y_{t-2}$

Δ y_{t - 1} = y_{t - 1} - y_{t - 2}

$\Delta y_{t−1}=y_{t-1}−y_{t−2}$

Dimitriy V verwenden. Masterov

Wann muss die Verzögerung der abhängigen Variablen in ein Regressionsmodell einbezogen werden und welche Verzögerung?

Antworten: