Ich versuche zu verstehen, wie Einflussfunktionen funktionieren. Könnte jemand im Kontext einer einfachen OLS-Regression erklären
wo ich die Einflussfunktion für will .
regression
least-squares
stevejb
quelle
quelle
Antworten:
Einflussfunktionen sind im Grunde genommen ein Analysewerkzeug, mit dem der Effekt (oder "Einfluss") des Entfernens einer Beobachtung auf den Wert einer Statistik bewertet werden kann, ohne dass diese Statistik neu berechnet werden muss . Sie können auch verwendet werden, um asymptotische Varianzschätzungen zu erstellen. Wenn der Einfluss gleich ist, ist die asymptotische Varianz I 2I .I2n
Ich verstehe Einflussfunktionen wie folgt. Sie haben eine Art theoretische CDF, bezeichnet mit . Für einfaches OLS haben SieFi(y)=Pr(Yi<yi)
WobeiΦ(z)die normale Standard-CDF ist undσ2die Fehlervarianz ist. Jetzt können Sie zeigen, dass jede Statistik eine Funktion dieser CDF ist, daher die NotationS(F)(dh eine Funktion vonF). Nehmen wir nun an, wir ändern die FunktionFum ein "kleines Bit" inF(i)(z)=(1+ζ)F(z)-ζδ(i)(
Note thatF(i)(z,0)=F(z) so we get:
The partial derivative here is called the influence function. So this represents an approximate "first order" correction to be made to a statistic due to deleting the "ith" observation. Note that in regression the remainder does not go to zero asymtotically, so that this is an approximation to the changes you may actually get. Now writeβ as:
Somit ist Beta eine Funktion von zwei Statistiken: der Varianz von X und der Kovarianz zwischen X und Y. Diese beiden Statistiken haben Darstellungen in Bezug auf die CDF als:
To remove the ith observation we replaceF→F(i)=(1+ζ)F−ζδ(i) in both integrals to give:
ignoring terms ofζ2 and simplifying we get:
So we can now expressβ(i) as a function of ζ . This is:
We can now use the Taylor series:
Simplifying this gives:
And plugging in the values of the statisticsμy , μx , var(X) , and ζ=1n−1 we get:
And you can see how the effect of removing a single observation can be approximated without having to re-fit the model. You can also see how an x equal to the average has no influence on the slope of the line. Think about this and you will see how it makes sense. You can also write this more succinctly in terms of the standardised valuesx~=x−x¯¯¯sx (similarly for y):
quelle
Here is a super general way to talk about influence functions of a regression. First I'm going to tackle one way of presenting influence functions:
SupposeF is a distribution on Σ . The contaminated distribution function, Fϵ(x) can be defined as:
From this we can define the influence function fairly easily:
The influence function ofθ^ at F , ψi:X→Γ is defined as:
From here it's possible to see that an influence function is the Gateaux derivative ofθ^ at F in the direction of δx . This makes the interpretation of influence functions (for me) a little bit clearer: An influence function tells you the effect that a particular observation has on the estimator.
The OLS estimate is a solution to the problem:
Imagine a contaminated distribution which puts a little more weight on observation(x,y) :
Taking first order conditions:
Since the influence function is just a Gateaux derivative we can now say:
Atϵ=0 , θ^ϵ=θ^=E[XTX]−1E[XTY] , so:
The finite sample counterpart of this influence function is:
In general I find this framework (working with influence functions as Gateaux derivatives) easier to deal with.
quelle