Warum genau werden die beobachteten Fisher-Informationen verwendet?

17

In der Standard - Maximalwahrscheinlichkeitseinstellung (iid Stichprobe aus einer Verteilung mit der Dichte f y ( y | θ 0Y1,,Ynfy(y|θ0 )) und im Fall eines korrekt spezifizierten Modells wird die Fisher-Information durch gegeben

I(θ)=Eθ0[2θ2lnfy(θ)]

wobei die Erwartung in Bezug auf die wahre Dichte genommen wird, die die Daten erzeugt hat. Ich habe gelesen, dass die Fisher-Informationen beachtet werden

J^(θ)=2θ2lnfy(θ)

wird primär verwendet, da das zur Berechnung der (erwarteten) Fisher-Informationen verwendete Integral in einigen Fällen möglicherweise nicht realisierbar ist. Was mich verwirrt, ist, dass selbst wenn das Integral machbar ist, die Erwartung in Bezug auf das wahre Modell genommen werden muss, das den unbekannten Parameterwert . Wenn dies der Fall ist, scheint es, dass es unmöglich ist, I zu berechnen , ohne & thgr ; 0 zu kennen . Ist das wahr?θ0θ0I

user2249626
quelle

Antworten:

13

Sie haben vier quanties hier bekommen: die wahren Parameter , der eine konsistente Schätzung θ , die erwartete Information I ( θ ) bei θ und der beobachtete Information J ( θ ) bei θ . Diese Größen sind nur asymptotisch äquivalent, werden aber typischerweise so verwendet.θ0θ^I(θ)θJ(θ)θ

  1. Die beobachtete Information

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dx. This convergence holds because of the law of large numbers, so the assumption that Yf(θ0) is crucial here.
  2. When you've got an estimate θ^ that converges in probability to the true parameter θ0 (ie, is consistent) then you can substitute it for anywhere you see a θ0 above, essentially due to the continuous mapping theorem, and all of the convergences continue to hold.

Actually, it appears to be a bit subtle.

Remark

As you surmised, observed information is typically easier to work with because differentiation is easier than integration, and you might have already evaluated it in the course of some numeric optimization. In some circumstances (the Normal distribution) they will be the same.

The article "Assessing the Accuracy of the Maximum Likelihood Estimator: Observed Versus Expected Fisher Information" by Efron and Hinkley (1978) makes an argument in favor of the observed information for finite samples.

Andrew M
quelle
4

There have been some simulation studies that appear supportive of Efron & Hinkley's theoretical observations (which are mentioned in Andrew's answer), here's one I know of offhand: Maldonado, G. and Greenland, S. (1994). A comparison of the performance of model-based confidence intervals when the correct model form is unknown. Epidemiology, 5, 171-182. I've not seen any studies that conflict. It is interesting then that standard GLM packages I know of use expected information to compute Wald intervals. Of course this is not an issue when (as in GLMs linear in the natural parameter) the observed and expected information matrices are equal.

Sander Greenland
quelle