Grundlegende Frage zu Fisher Information Matrix und Beziehung zu hessischen und Standardfehlern

54

Ok, das ist eine ziemlich grundlegende Frage, aber ich bin ein bisschen verwirrt. In meiner Diplomarbeit schreibe ich:

Die Standardfehler können durch Berechnung der Umkehrung der Quadratwurzel der diagonalen Elemente der (beobachteten) Fisher-Informationsmatrix ermittelt werden:

sμ^,σ^2=1I(μ^,σ^2)
Da der Optimierungsbefehl in R minimiert die (beobachtete) Fisher-Informationsmatrix durch Berechnung der Inversen des Hessischen ermittelt werden: logL
I(μ^,σ^2)=H1

Meine Hauptfrage: Stimmt das, was ich sage ?

Ich bin ein bisschen verwirrt, weil in dieser Quelle auf Seite 7 steht:

Die Informationsmatrix ist das Negativ des Erwartungswertes der Hessischen Matrix

(Also keine Umkehrung des Hessischen.)

In dieser Quelle auf Seite 7 (Fußnote 5) heißt es:

Die beobachteten Fisher-Informationen sind gleich .(H)1

(Also hier ist das Gegenteil.)

Ich kenne das Minuszeichen und weiß, wann ich es verwenden soll und wann nicht, aber warum gibt es einen Unterschied bei der Inversen oder Nicht-Inversen?

Jen Bohold
quelle
@COOLSerdash Danke für Ihre Korrekturen und +1, aber diese Quelle: unc.edu/~monogan/computing/r/MLE_in_R.pdf Seite 7 besagt eindeutig, dass die beobachteten Fisher-Informationen gleich der INVERSE des Hessischen sind?
Jen Bohold
@COOLSerdash Ok, möglicherweise möchten Sie dies als Antwort posten.
Jen Bohold

Antworten:

75

Yudi Pawitan schreibt in seinem Buch In All Likelihood, dass die zweite Ableitung der logarithmischen Wahrscheinlichkeit, die mit den Maximum-Likelihood-Schätzungen (MLE) bewertet wird, die beobachteten Fisher-Informationen sind (siehe auch dieses Dokument , Seite 2). Dies ist genau das, was die meisten Optimierungsalgorithmen optimim RGegenzug mögen : das Hessische, das an der MLE evaluiert wurde. Wenn das NegativeLog-Wahrscheinlichkeit wird minimiert, der negative Hessische wird zurückgegeben. Wie Sie richtig bemerken, sind die geschätzten Standardfehler des MLE die Quadratwurzeln der diagonalen Elemente des Inversen der beobachteten Fisher-Informationsmatrix. Mit anderen Worten: Die Quadratwurzeln der diagonalen Elemente des Inversen des Hessischen (oder des negativen Hessischen) sind die geschätzten Standardfehler.

Zusammenfassung

  • Der im MLE bewertete negative Hessian entspricht der beobachteten Fisher-Informationsmatrix, die im MLE ausgewertet wurde.
  • Zu Ihrer Hauptfrage: Nein, es ist nicht richtig, dass die beobachteten Fisher-Informationen durch Invertieren des (negativen) Hessischen gefunden werden können.
  • Zu Ihrer zweiten Frage: Das Inverse des (negativen) Hessischen ist ein Schätzer der asymptotischen Kovarianzmatrix. Daher sind die Quadratwurzeln der diagonalen Elemente der Kovarianzmatrix Schätzer der Standardfehler.
  • Ich denke, das zweite Dokument, das Sie verlinken, hat etwas falsch gemacht.

Formal

Sei eine Log-Likelihood-Funktion. Die Fisher-Informationsmatrix ist eine symmetrische Matrix mit den Einträgen: Die beobachtete Fisher-Informationsmatrix ist einfach , wobei die Informationsmatrix mit den Maximum-Likelihood-Schätzungen (MLE) bewertet wird. Das Hessische ist definiert als: l(θ) I(θ)(p×p)

I(θ)=2θiθjl(θ),    1i,jp
I(θ^ML)
H(θ)=2θiθjl(θ),    1i,jp
Es ist nichts anderes als die Matrix der zweiten Ableitungen der Wahrscheinlichkeitsfunktion in Bezug auf die Parameter. Wenn Sie also die negative log-Wahrscheinlichkeit minimieren , entspricht der zurückgegebene Hessische Wert der beobachteten Fisher-Informationsmatrix. Wenn Sie dagegen die log-Wahrscheinlichkeit maximieren, ist der negative Hessische Wert die beobachtete Informationsmatrix.

Ferner ist die Inverse der Fisher-Informationsmatrix ein Schätzer der asymptotischen Kovarianzmatrix: Die Standardfehler sind dann die Quadratwurzeln der diagonalen Elemente der Kovarianzmatrix. Für die asymptotische Verteilung einer Maximum-Likelihood-Schätzung können wir wobei den wahren Parameterwert bezeichnet. Daher ist der geschätzte Standardfehler der Maximum-Likelihood-Schätzungen gegeben durch:

Var(θ^ML)=[I(θ^ML)]1
θ^MLaN(θ0,[I(θ^ML)]1)
θ0
SE(θ^ML)=1I(θ^ML)
COOLSerdash
quelle
1
sollte sagen "wenn die negative log-Wahrscheinlichkeit minimiert ist " (oder optimiert ).
7.
8
Die (erwartete) Fisher-Information lautet ; Die beobachtete (Fisher-) Information ist nur , das heißt nicht, weil es bei der Maximum-Likehood-Schätzung von thgr ; ausgewertet wird , sondern weil es eher eine Funktion der beobachteten Daten als ein Durchschnitt über mögliche Beobachtungen ist. Dies wird möglicherweise durch bekannte Beispiele verdeckt, die Rückschlüsse auf den kanonischen Parameter in einer vollständigen Exponentialfamilie ziehen, wenn . I(θ)=EI(θ)I(θ)θI(θ)=I(θ)
Scortchi
6

Das Schätzen von Wahrscheinlichkeitsfunktionen umfasst einen zweistufigen Prozess.

Zunächst deklariert man die Log-Likelihood-Funktion. dann optimiert man die Log-Likelihood-Funktionen. Das ist gut.

Wenn wir die Log-Likelihood-Funktionen in R schreiben, fragen wir nach (wobei die Log-Likelihood-Funktion darstellt), da der Optimierungsbefehl in R eine Funktion standardmäßig minimiert. Die Minimierung von -l ist die gleiche wie die Maximierung von l, was wir wollen.1ll

Nun ist die beobachtete Fisher Information Matrix gleich . Der Grund dafür, dass wir den Hassian nicht mit -1 multiplizieren müssen, ist, dass die gesamte Auswertung mit dem -1-fachen der Log-Wahrscheinlichkeit durchgeführt wurde. Dies bedeutet, dass der durch optim erzeugte Hessische Wert bereits mit -1 multipliziert wird(H)1

Adelino Martins
quelle