Nützlichkeit des Frisch-Waugh-Theorems

15

Ich soll den Satz von Frish Waugh in Ökonometrie unterrichten, den ich nicht studiert habe.

Ich habe die Mathematik dahinter verstanden und hoffe auch, dass "der Koeffizient, den Sie für einen bestimmten Koeffizienten aus einem multiplen linearen Modell erhalten, dem Koeffizienten des einfachen Regressionsmodells entspricht, wenn Sie den Einfluss der anderen Regressoren" eliminieren ". Die theoretische Idee ist also irgendwie cool. (Wenn ich total missverstanden habe, freue ich mich über eine Korrektur)

Aber hat es einige klassische / praktische Verwendungen?

EDIT : Ich habe eine Antwort akzeptiert, bin aber immer noch bereit, neue zu haben, die andere Beispiele / Anwendungen bringen.

Anthony Martin
quelle
4
Eine naheliegende wäre es , variable Diagramme hinzuzufügen ?
Silberfischchen
1
In Doughertys Einführung in die Ökonometrie wird ein weiteres Beispiel für die Verwendung des Frisch-Waugh-Lovell-Theorems genannt. In den frühen Tagen der ökonometrischen Analyse von Zeitreihen war es in Modellen üblich, dass Variablen deterministische Zeittrends aufwiesen, um sie alle vor der Regression zu zerstören. Aber durch FWL erhalten Sie die gleichen Koeffizienten, indem Sie einfach einen Zeittrend als Regressor einbeziehen, und darüber hinaus erhalten Sie die "richtigen" Standardfehler, da bestätigt wird, dass 1 df dadurch verbraucht wurde.
Silberfischchen
1
Dougherty warnt vor dem Verfahren, daher ist es in dieser Hinsicht kein gutes Beispiel, auch wenn es ein lehrreiches ist. Ökonomische Variablen scheinen oft eher differenzstabil als trendstabil zu sein, so dass diese Art von versuchtem Detrending nicht funktioniert und zu unechten Regressionen führen kann.
Silberfischchen
1
@Silverfish: FWL ist eine rein algebraische Technik, daher ist die Frage, ob das Extrahieren eines deterministischen Trends angesichts des zugrunde liegenden DGP "richtig" ist, zweifellos wichtig, aber in keinem Zusammenhang mit FWL. In diesem Sinne ist Ihr Beispiel also absolut richtig OPs fragen nach den zwei Möglichkeiten, um Punktschätzungen zu erhalten.
Christoph Hanck
2
Ich habe diese Beziehung in vielen Beiträgen genutzt, vor allem für konzeptionelle Zwecke und um interessante Beispiele für Regressionsphänomene zu liefern. Siehe, unter anderem , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 und stats.stackexchange.com/a/71257 .
Whuber

Antworten:

14

Betrachten Sie das Datenmodell des festen Effektfensters, das auch als LSDV-Modell (Least Squares Dummy Variables) bezeichnet wird.

bLSDV kann berechnet werden, indem OLS direkt auf das Modell angewendet wird ,

y=Xβ+Dα+ϵ,
wobeiD eineNT×N Matrix von Dummys ist undα die individuell spezifischen festen Effekte darstellt.

Eine andere Möglichkeit, zu berechnen, bLSDVbesteht darin, die sogenannte Innentransformation auf das übliche Modell anzuwenden , um eine herabgesetzte Version davon zu erhalten, dh

M[D]y=M[D]Xβ+M[D]ϵ.
Hier ist M[D]=ich-D(DD)-1D , die Restherstellermatrix einer Regression aufD .

Durch den Frisch-Waugh-Lovell Satz, die beide sind gleichwertig, wie FWL sagt , dass Sie eine Teilmenge von Regressionskoeffizienten einer Regression berechnen können (hier ββ^ ) durch

  1. Regression von auf die anderen Regressoren (hier D ), Speichern der Residuen (hier das zeitgeminderte y oder M [ D ]yDy , weil die Regression auf eine Konstante nur die Variablen herabsetzt), dannM[D]y
  2. Regression des auf D und Speichern der Residuen M [ D ]XD undM[D]X
  3. die Residuen aufeinander regressieren, auf M [ D ]M[D]y .M[D]X

Die zweite Version wird viel häufiger verwendet, da typische Paneldatensätze möglicherweise Tausende von Panel-Einheiten , sodass Sie beim ersten Ansatz eine Regression mit Tausenden von Regressoren durchführen müssten, was zahlenmäßig auch heutzutage mit schnell keine gute Idee ist Computer, da das Berechnen der Inversen von ( D : X ) ' ( D : X ) sehr teuer wäre, während das zeitliche Verringern von y und X mit geringen Kosten verbunden ist.N(D:X)(D:X)yX

Christoph Hanck
quelle
Vielen Dank, das ist die Art von Antwort, nach der ich gesucht habe, obwohl es für mich etwas fortgeschritten ist, sie tatsächlich zu verwenden. Also deine Antwort passt zu mir, aber ich würde mich freuen, wenn ich andere habe. Soll ich deine akzeptieren?
Anthony Martin
Wenn es helfen würde, wäre es angebracht, dies zu tun. Das Akzeptieren verringert jedoch die Wahrscheinlichkeit, dass Sie bessere Antworten erhalten. Sie können also überlegen, mit dem Akzeptieren dieser Antwort zu warten. Ein Kopfgeld würde Ihre Chancen weiter erhöhen, mehr Antworten zu erhalten - da es nicht genügend Benutzer im Lebenslauf gibt, die regelmäßig Fragen beantworten, kann sogar eine einzige Antwort andere aktive Benutzer zu dem Schluss führen, dass die Fragen behandelt wurden. (Ich habe unten eine etwas einfachere Antwort gepostet.)
Christoph Hanck
7

Hier ist eine vereinfachte Version meiner ersten Antwort, die meiner Meinung nach weniger relevant ist, aber möglicherweise leichter für den Unterricht zu "verkaufen" ist.

Die Regressionen und y i - ˉ y = K Σ j = 2 β j ( x i j - ˉ x j ) + ~ ε i identisch Ausbeute β j , j = 2 , ... ,

yi=β1+j=2Kβjxij+ϵi
yiy¯=j=2Kβj(xijx¯j)+ϵ~i
β^jj=2,,K . Dies kann wie folgt gesehen werden: nimm und damit M 1 = I - 1 ( 1 ' 1 ) - 1 1 ' = I - 1 1 'x1=1:=(1,,1) so dass M1xj=xj-1n-11'xj=xj-1x j=:xj-x j. Daher sind die Residuen einer Regression von Variablen auf einer KonstantenM1xjnur die erniedrigten Variablen (dieselbe Logik gilt natürlich füryi).
M1=I1(11)11=I11n,
M1xj=xj1n11xj=xj1x¯j=:xjx¯j.
M1xjyi
Christoph Hanck
quelle
4

Hier ist eine andere, indirektere, aber meiner Meinung nach interessante, nämlich der Zusammenhang zwischen verschiedenen Ansätzen zur Berechnung des partiellen Autokorrelationskoeffizienten einer stationären Zeitreihe.

Definition 1

Y^tμ=α1(m)(Yt1μ)+α2(m)(Yt2μ)++αm(m)(Ytmμ)
mαm(m)

mYtYt1,,Ytm+1ρmYtYtm

αj(m)ZtXt

E[Xt(ZtXtα(m))]=0
α(m) we find the linear projection coefficients
α(m)=[E(XtXt)]1E[XtZt]
Applying this formula to Zt=Ytμ and
Xt=[(Yt1μ),(Yt2μ),,(Ytmμ)]
we have
E(XtXt)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)
Also,
E(XtZt)=(γ1γm)
Hence,
α(m)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)1(γ1γm)
The mth partial correlation then is the last element of the vector α(m).

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The mth partial correlation is the correlation of the prediction error of Yt+m predicted with Yt1,,Ytm+1 with the prediction error of Yt predicted with Yt1,,Ytm+1.

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

Christoph Hanck
quelle