Einflussfunktionen und OLS

13

Ich versuche zu verstehen, wie Einflussfunktionen funktionieren. Könnte jemand im Kontext einer einfachen OLS-Regression erklären

yi=α+βxi+εi

wo ich die Einflussfunktion für will β.

stevejb
quelle
2
Hier gibt es noch keine spezifische Frage: Möchten Sie sehen, wie die Einflussfunktion berechnet wird? Möchten Sie ein konkretes empirisches Beispiel? Eine heuristische Erklärung dessen, was es bedeutet?
whuber
1
Wenn Sie nach Frank Critchleys Artikel von 1986 "Einflussfunktionen in Hauptkomponenten" suchen (können Sie sich nicht an den genauen Namen des Papiers erinnern). Er definiert hier die Einflussfunktion für die gewöhnliche Regression (was meine falsche Antwort beweisen kann oder nicht).
Wahrscheinlichkeitslogik

Antworten:

14

Einflussfunktionen sind im Grunde genommen ein Analysewerkzeug, mit dem der Effekt (oder "Einfluss") des Entfernens einer Beobachtung auf den Wert einer Statistik bewertet werden kann, ohne dass diese Statistik neu berechnet werden muss . Sie können auch verwendet werden, um asymptotische Varianzschätzungen zu erstellen. Wenn der Einfluss gleich ist, ist die asymptotische Varianz I 2I .I2n

Ich verstehe Einflussfunktionen wie folgt. Sie haben eine Art theoretische CDF, bezeichnet mit . Für einfaches OLS haben SieFi(y)=Pr(Yi<yi)

WobeiΦ(z)die normale Standard-CDF ist undσ2die Fehlervarianz ist. Jetzt können Sie zeigen, dass jede Statistik eine Funktion dieser CDF ist, daher die NotationS(F)(dh eine Funktion vonF). Nehmen wir nun an, wir ändern die FunktionFum ein "kleines Bit" inF(i)(z)=(1+ζ)F(z)-ζδ(i)(

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Φ(z)σ2S(F)FF Wobei δF(i)(z)=(1+ζ)F(z)ζδ(i)(z)undζ= 1δi(z)=I(yi<z) . SomitrepräsentiertF(i)die CDF der Daten, wobei der "i-te" Datenpunkt entfernt ist. Wir können eine Taylorreihe vonF(i)(z)überζ=0 machen. Das gibt:ζ=1n1F(i)F(i)(z)ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Note that F(i)(z,0)=F(z) so we get:

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

The partial derivative here is called the influence function. So this represents an approximate "first order" correction to be made to a statistic due to deleting the "ith" observation. Note that in regression the remainder does not go to zero asymtotically, so that this is an approximation to the changes you may actually get. Now write β as:

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Somit ist Beta eine Funktion von zwei Statistiken: der Varianz von X und der Kovarianz zwischen X und Y. Diese beiden Statistiken haben Darstellungen in Bezug auf die CDF als:

cov(X,Y)=(Xμx(F))(Yμy(F))dF
var(X)=(Xμx(F))2dF
where
μx=xdF

To remove the ith observation we replace FF(i)=(1+ζ)Fζδ(i) in both integrals to give:

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

ignoring terms of ζ2 and simplifying we get:

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Similarly for the covariance
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

So we can now express β(i) as a function of ζ. This is:

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

We can now use the Taylor series:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Simplifying this gives:

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

And plugging in the values of the statistics μy, μx, var(X), and ζ=1n1 we get:

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

And you can see how the effect of removing a single observation can be approximated without having to re-fit the model. You can also see how an x equal to the average has no influence on the slope of the line. Think about this and you will see how it makes sense. You can also write this more succinctly in terms of the standardised values x~=xx¯sx (similarly for y):

β(i)βxi~n1[yi~sysxxi~β]
probabilityislogic
quelle
So the story is about the influence of additional data point? I more used to the impulse response for the time series data, in statistical context all influence would be described by marginal effect or (better choice) beta coefficient from standardized regression. Well I really need more context to judge the question and answer, but this one is nice, I think (+1 not yet but awaiting).
Dmitrij Celov
@dmitrij - That is what was implied (or what I inferred) from the link - it is about the robustness properties of a statistic. Influence functions are slightly more general than 1 data point - you can redefine the delta function to be a sum of them (so many observations). I would think of it as a "cheap Jacknife" to some degree - because you don't require re-fitting of the model.
probabilityislogic
9

Here is a super general way to talk about influence functions of a regression. First I'm going to tackle one way of presenting influence functions:

Suppose F is a distribution on Σ. The contaminated distribution function, Fϵ(x) can be defined as:

Fϵ(x)=(1ϵ)F+ϵδx
where δx is the probability measure on Σ which assigns probability 1 to {x} and 0 to all other elements of Σ.

From this we can define the influence function fairly easily:

The influence function of θ^ at F, ψi:XΓ is defined as:

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

From here it's possible to see that an influence function is the Gateaux derivative of θ^ at F in the direction of δx. This makes the interpretation of influence functions (for me) a little bit clearer: An influence function tells you the effect that a particular observation has on the estimator.

The OLS estimate is a solution to the problem:

θ^=argminθE[(YXθ)T(YXθ)]

Imagine a contaminated distribution which puts a little more weight on observation (x,y):

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

Taking first order conditions:

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

Since the influence function is just a Gateaux derivative we can now say:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

At ϵ=0, θ^ϵ=θ^=E[XTX]1E[XTY], so:

ψθ(x,y)=E[XTX]1xT(yxθ)

The finite sample counterpart of this influence function is:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

In general I find this framework (working with influence functions as Gateaux derivatives) easier to deal with.

jayk
quelle