Ok, das ist eine ziemlich grundlegende Frage, aber ich bin ein bisschen verwirrt. In meiner Diplomarbeit schreibe ich:
Die Standardfehler können durch Berechnung der Umkehrung der Quadratwurzel der diagonalen Elemente der (beobachteten) Fisher-Informationsmatrix ermittelt werden:
Meine Hauptfrage: Stimmt das, was ich sage ?
Ich bin ein bisschen verwirrt, weil in dieser Quelle auf Seite 7 steht:
Die Informationsmatrix ist das Negativ des Erwartungswertes der Hessischen Matrix
(Also keine Umkehrung des Hessischen.)
In dieser Quelle auf Seite 7 (Fußnote 5) heißt es:
Die beobachteten Fisher-Informationen sind gleich .
(Also hier ist das Gegenteil.)
Ich kenne das Minuszeichen und weiß, wann ich es verwenden soll und wann nicht, aber warum gibt es einen Unterschied bei der Inversen oder Nicht-Inversen?
quelle
Antworten:
Yudi Pawitan schreibt in seinem Buch In All Likelihood, dass die zweite Ableitung der logarithmischen Wahrscheinlichkeit, die mit den Maximum-Likelihood-Schätzungen (MLE) bewertet wird, die beobachteten Fisher-Informationen sind (siehe auch dieses Dokument , Seite 2). Dies ist genau das, was die meisten Optimierungsalgorithmen
optim
imR
Gegenzug mögen : das Hessische, das an der MLE evaluiert wurde. Wenn das NegativeLog-Wahrscheinlichkeit wird minimiert, der negative Hessische wird zurückgegeben. Wie Sie richtig bemerken, sind die geschätzten Standardfehler des MLE die Quadratwurzeln der diagonalen Elemente des Inversen der beobachteten Fisher-Informationsmatrix. Mit anderen Worten: Die Quadratwurzeln der diagonalen Elemente des Inversen des Hessischen (oder des negativen Hessischen) sind die geschätzten Standardfehler.Zusammenfassung
Formal
Sei eine Log-Likelihood-Funktion. Die Fisher-Informationsmatrix ist eine symmetrische Matrix mit den Einträgen: Die beobachtete Fisher-Informationsmatrix ist einfach , wobei die Informationsmatrix mit den Maximum-Likelihood-Schätzungen (MLE) bewertet wird. Das Hessische ist definiert als:l(θ) I(θ) (p×p)
Ferner ist die Inverse der Fisher-Informationsmatrix ein Schätzer der asymptotischen Kovarianzmatrix: Die Standardfehler sind dann die Quadratwurzeln der diagonalen Elemente der Kovarianzmatrix. Für die asymptotische Verteilung einer Maximum-Likelihood-Schätzung können wir wobei den wahren Parameterwert bezeichnet. Daher ist der geschätzte Standardfehler der Maximum-Likelihood-Schätzungen gegeben durch:
quelle
Das Schätzen von Wahrscheinlichkeitsfunktionen umfasst einen zweistufigen Prozess.
Zunächst deklariert man die Log-Likelihood-Funktion. dann optimiert man die Log-Likelihood-Funktionen. Das ist gut.
Wenn wir die Log-Likelihood-Funktionen in R schreiben, fragen wir nach (wobei die Log-Likelihood-Funktion darstellt), da der Optimierungsbefehl in R eine Funktion standardmäßig minimiert. Die Minimierung von -l ist die gleiche wie die Maximierung von l, was wir wollen.−1∗l l
Nun ist die beobachtete Fisher Information Matrix gleich . Der Grund dafür, dass wir den Hassian nicht mit -1 multiplizieren müssen, ist, dass die gesamte Auswertung mit dem -1-fachen der Log-Wahrscheinlichkeit durchgeführt wurde. Dies bedeutet, dass der durch optim erzeugte Hessische Wert bereits mit -1 multipliziert wird(−H)−1
quelle