Können Sie eine einfache intuitive Erklärung der IRLS-Methode zum Ermitteln der MLE eines GLM geben?

12

Hintergrund:

Ich versuche, Princetons Überprüfung der MLE-Schätzung für GLM zu folgen .

Verstehe ich die Grundlagen der MLE Schätzung: likelihood, score, beobachteten und erwarteten Fisher informationund die Fisher scoringTechnik. Und ich weiß, wie man eine einfache lineare Regression mit einer MLE-Schätzung rechtfertigt .


Die Frage:

Ich kann nicht einmal die erste Zeile dieser Methode verstehen :(

Welche Intuition steckt hinter den -Arbeitsvariablen, die wie folgt definiert sind:zi

zi=η^i+(yiμ^i)dηidμi

Warum werden sie anstelle von , um β zu schätzen ?yiβ

Und in welchem ​​Verhältnis stehen sie zu dem, response/link functionwas die Verbindung zwischen und μ istημ

Wenn jemand eine einfache Erklärung hat oder mich auf einen grundlegenderen Text dazu verweisen kann, wäre ich dankbar.

ihadanny
quelle
1
Als Randnotiz habe ich im Rahmen einer robusten (M-) Schätzung etwas über IRLS gelernt, bevor ich von dem gesamten "GLM" -Rahmenwerk hörte (das ich immer noch nicht vollständig verstehe). Für eine praktische Perspektive auf diesen Ansatz, als einfache Verallgemeinerung der kleinsten Fehlerquadrate, würde ich die Quelle empfehlen, auf die ich zum ersten Mal gestoßen bin: Anhang B von Richard Szeliskis Computer Vision (kostenloses E-) Buch (die ersten 4 Seiten, wirklich, obwohl diese Links zu einige schöne Beispiele auch).
GeoMatt22

Antworten:

15

Vor einigen Jahren habe ich einen Artikel darüber für meine Schüler geschrieben (auf Spanisch), damit ich versuchen kann, diese Erklärungen hier umzuschreiben. Ich werde IRLS (iterativ gewichtete kleinste Quadrate) anhand einer Reihe von Beispielen mit zunehmender Komplexität betrachten. Für das erste Beispiel benötigen wir das Konzept einer Location-Scale-Familie. Sei eine Dichtefunktion, die in gewisser Weise auf Null zentriert ist. Wir können eine Dichtefamilie konstruieren, indem wir f ( x ) = f ( x ; μ , σ ) = 1 definierenf0 wobeiσ>0ein Skalenparameter undμeinOrtsparameterist. In dem Messfehlermodell, in dem der Fehlerterm gewöhnlich als Normalverteilung modelliert wird, können wir anstelle dieser Normalverteilung eine Ortsskalenfamilie wie oben konstruiert verwenden. Wennf0die Standardnormalverteilung ist, ergibt die obige Konstruktion dieN(μ,σ)-Familie.

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μf0N(μ,σ)

Jetzt werden wir IRLS an einigen einfachen Beispielen verwenden. Zunächst finden wir die ML-Schätzer (Maximum Likelihood) im Modell mit der Dichte f ( y ) = 1

Y1,Y2,,Yni.i.d
die Cauchy-Verteilung der Ortsfamilie μ (also eine Ortsfamilie). Aber zuerst etwas Notation. Der Schätzer der gewichteten kleinsten Quadrate von μ ist gegeben durch μ = n i = 1 w i y i
f(y)=1π11+(yμ)2,yR,
μμ wowichbin einige Gewichte. Wir werden sehendass der MLSchätzer vonμkann in der gleichen Form ausgedrückt werden, wobeiwieine Funktion der Residuen & epsi;i=yi - μ . Die Wahrscheinlichkeitsfunktion ist gegeben durch L(y;μ)=(1
μ=i=1nwiyii=1nwi.
wiμwi
ϵi=yiμ^.
und die LogLikelihoodFunktion ist gegeben durch l(y)=-nlog(π)- n Σ i=1log(1+(yi-μ)2). Ihre Ableitung zuμist l ( y )
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ wobei ϵi=yi-μ. Schreibef0(ϵ)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμ undf0 (ϵ)=1f0(ϵ)=1π11+ϵ2 , wir erhalten f0 (ϵ)f0(ϵ)=1π12ϵ(1+ϵ2)2 Wir finden l ( y )
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
wo wir die Definition wi= f 0 ( ϵ i ) verwendet haben
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
Daran erinnernddass εi=yi-μwir die Gleichung erhalten Σwiyi=μΣwi, die die Schätzgleichung der IRLS ist. Beachten Sie, dass
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
ϵi=yiμ
wiyi=μwi,
  1. Die Gewichte sind immer positiv.wi
  2. Wenn der Rest groß ist, geben wir der entsprechenden Beobachtung weniger Gewicht.

μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
μ^(0),μ^(1),,μ^(j),
konvergiert.

Jetzt untersuchen wir diesen Prozess mit einer allgemeineren Orts- und Maßstabsfamilie. f(y)=1σf0(y-μσ)mit weniger Details. LassenY.1,Y.2,,Y.nsei unabhängig von der obigen Dichte. Definiere auchϵich=yich-μσ. Die Loglikelihood-Funktion ist

l(y)=-n2Log(σ2)+Log(f0(yich-μσ)).
Schreiben ν=σ2, beachten Sie, dass
ϵiμ=1σ
and
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
Calculating the loglikelihood derivative
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
and equaling this to zero gives the same estimating equation as the first example. Then searching for an estimator for σ2:
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
leading to the estimator
σ2^=1nwi(yiμ^)2.
The iterative algorithm above can be used in this case as well.

In the following we give a numerical examle using R, for the double exponential model (with known scale) and with data y <- c(-5,-1,0,1,5). For this data the true value of the ML estimator is 0. The initial value will be mu <- 0.5. One pass of the algorithm is

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

with this function you can experiment with doing the iterations "by hand" Then the iterative algorithm can be done by

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Exercise: If the model is a tk distribution with scale parameter σ show the iterations are given by the weight

wi=k+1k+ϵi2.
Exercise: If the density is logistic, show the weights are given by
w(ϵ)=1eϵ1+eϵ1ϵ.

For the moment I will leave it here, I will continue this post.

kjetil b halvorsen
quelle
wow, great gentle introduction! but you're always referring to a single parameter u for all instances and the sources I quoted talk about a different ui per instance. is this just a trivial modification?
ihadanny
1
I will add more to this, just out of time now! The ideas remain the same, but the details get more involved.
kjetil b halvorsen
2
will come to that!
kjetil b halvorsen
1
And thanks for the exercise showing the weights for the logistic density. Did it and learned a lot thru the process. I do not know the tk distribution, couldn't find anything about it...
ihadanny
2
do you mind writing a blog post somewhere continuing this explanation? really useful for me and I'm sure will be for others...
ihadanny