Hintergrund:
Ich versuche, Princetons Überprüfung der MLE-Schätzung für GLM zu folgen .
Verstehe ich die Grundlagen der MLE Schätzung: likelihood
, score
, beobachteten und erwarteten Fisher information
und die Fisher scoring
Technik. Und ich weiß, wie man eine einfache lineare Regression mit einer MLE-Schätzung rechtfertigt .
Die Frage:
Ich kann nicht einmal die erste Zeile dieser Methode verstehen :(
Welche Intuition steckt hinter den -Arbeitsvariablen, die wie folgt definiert sind:
Warum werden sie anstelle von , um β zu schätzen ?
Und in welchem Verhältnis stehen sie zu dem, response/link function
was die Verbindung zwischen und μ ist
Wenn jemand eine einfache Erklärung hat oder mich auf einen grundlegenderen Text dazu verweisen kann, wäre ich dankbar.
Antworten:
Vor einigen Jahren habe ich einen Artikel darüber für meine Schüler geschrieben (auf Spanisch), damit ich versuchen kann, diese Erklärungen hier umzuschreiben. Ich werde IRLS (iterativ gewichtete kleinste Quadrate) anhand einer Reihe von Beispielen mit zunehmender Komplexität betrachten. Für das erste Beispiel benötigen wir das Konzept einer Location-Scale-Familie. Sei eine Dichtefunktion, die in gewisser Weise auf Null zentriert ist. Wir können eine Dichtefamilie konstruieren, indem wir f ( x ) = f ( x ; μ , σ ) = 1 definierenf0
wobeiσ>0ein Skalenparameter undμeinOrtsparameterist. In dem Messfehlermodell, in dem der Fehlerterm gewöhnlich als Normalverteilung modelliert wird, können wir anstelle dieser Normalverteilung eine Ortsskalenfamilie wie oben konstruiert verwenden. Wennf0die Standardnormalverteilung ist, ergibt die obige Konstruktion dieN(μ,σ)-Familie.
Jetzt werden wir IRLS an einigen einfachen Beispielen verwenden. Zunächst finden wir die ML-Schätzer (Maximum Likelihood) im Modell mit der Dichte f ( y ) = 1
Jetzt untersuchen wir diesen Prozess mit einer allgemeineren Orts- und Maßstabsfamilie.f( y) = 1σf0( y- μσ) mit weniger Details. LassenY.1, Y2, … , Yn sei unabhängig von der obigen Dichte. Definiere auchϵich= yich- μσ . Die Loglikelihood-Funktion ist
In the following we give a numerical examle using R, for the double exponential model (with known scale) and with data
y <- c(-5,-1,0,1,5)
. For this data the true value of the ML estimator is 0. The initial value will bemu <- 0.5
. One pass of the algorithm iswith this function you can experiment with doing the iterations "by hand" Then the iterative algorithm can be done by
Exercise: If the model is atk distribution with scale parameter σ show the iterations are given by the weight
For the moment I will leave it here, I will continue this post.
quelle