Intuitive Erklärung von Fisher Information und Cramer-Rao gebunden

59

Ich bin mit Fisher-Informationen nicht einverstanden, was es misst und wie es hilfreich ist. Auch die Beziehung zu Cramer-Rao ist mir nicht klar.

Kann jemand bitte eine intuitive Erklärung dieser Konzepte geben?

Unendlichkeit
quelle
1
Gibt es irgendetwas in dem Wikipedia-Artikel, das Probleme verursacht? Es misst die Informationsmenge, die eine beobachtbare Zufallsvariable über einen unbekannten Parameter & thgr; trägt, von dem die Wahrscheinlichkeit von X abhängt, und ihre Inverse ist die Cramer-Rao-Untergrenze für die Varianz eines unverzerrten Schätzers von & thgr ; . XθXθ
Henry
2
Ich verstehe das, aber ich fühle mich nicht wirklich wohl damit. Was genau bedeutet "Informationsmenge" hier? Warum misst die negative Erwartung des Quadrats der partiellen Ableitung der Dichte diese Information? Woher kommt der Ausdruck usw. Deshalb hoffe ich, eine gewisse Intuition darüber zu bekommen.
Infinity
@Infinity: Der Score ist die proportionale Änderungsrate der Wahrscheinlichkeit, dass sich die beobachteten Daten ändern, wenn sich der Parameter ändert. Die Fisher-Information gibt die Varianz des (null-gemittelten) Scores an. Mathematisch ist es also die Erwartung des Quadrats der ersten Teilableitung des Logarithmus der Dichte und ebenso das Negativ der Erwartung der zweiten Teilableitung des Logarithmus der Dichte.
Henry

Antworten:

32

Hier erkläre ich, warum die asymptotische Varianz des Maximum-Likelihood-Schätzers die Cramer-Rao-Untergrenze ist. Hoffentlich bietet dies einen Einblick in die Relevanz der Fisher-Informationen.

Die statistische Inferenz erfolgt unter Verwendung einer Wahrscheinlichkeitsfunktion die Sie aus den Daten konstruieren. Die Punktschätzung θ ist der Wert, maximiert L ( θ ) . Der Schätzer θ eine Zufallsvariable ist , aber es hilft , zu erkennen , dass die Wahrscheinlichkeitsfunktion L ( θ ) ist ein „random curve“.L(θ)θ^L(θ)θ^ L(θ)

Hier nehmen wir iid-Daten an, die aus einer Verteilung , und definieren die Wahrscheinlichkeit L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Der Parameter hat die Eigenschaft, dass er den Wert der "wahren" Wahrscheinlichkeit E L ( & thgr; ) maximiert . Die "beobachtete" Wahrscheinlichkeitsfunktion L ( & thgr; ), die aus den Daten aufgebaut ist, ist jedoch geringfügig von der wahren Wahrscheinlichkeit "ab". Wie Sie sich vorstellen können, konvergiert die "beobachtete" Wahrscheinlichkeit mit zunehmender Stichprobengröße mit der Form der tatsächlichen Wahrscheinlichkeitskurve. Das gleiche gilt für die Ableitung des Likelihood in Bezug auf die Parameter, die Score - Funktion L /& thgr; . (Um es kurz zu machen, die Fisher-Informationen bestimmen, wie schnellθEL(θ)L(θ) L/θ Die beobachtete Bewertungsfunktion konvergiert zur Form der wahren Bewertungsfunktion.)

Bei einer großen Stichprobe, gehen wir davon aus, dass unsere Maximum - Likelihood - Schätzung θ sehr nahe ist θ . Wir zoomen Sie in einer kleinen Umgebung um θ und θ , so dass die Wahrscheinlichkeit , dass die Funktion „lokal quadratisch“ ist.θ^θθθ^

θ^ L/θabθ

a(θ^θ)+b=0

oder

θ^=θb/a.

Aus der Konsistenz des MLE-Schätzers wissen wir das

E(θ^)=θ

im Limit.

Daher asymptotisch

nVar(θ^)=nVar(b/a)

θ

nVar(θ^)=1a2nVar(b)

anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Somit,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
1/I(θ)
charles.y.zheng
quelle
2
Gibt es eine grafische Darstellung des Teils, in dem Sie erwähnen, dass die Wahrscheinlichkeitsfunktion lokal quadratisch ist?
Quirik
@quirik, erwäge, die Taylor-Erweiterung zweiter Ordnung um theta_hat zu verwenden.
IDNAVID
@ charles.y.zheng Dies ist eine der interessantesten Erklärungen der Szene.
IDNAVID
13

Eine Möglichkeit, wie ich die Fischerinformationen verstehe, ist die folgende Definition:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

f(x|θ)XθXf(x|θ)dx=1

Wenn Sie nun eine Maximum-Likelihood-Schätzung durchführen (hier "Regularitätsbedingungen" einfügen), legen Sie fest

θlog[f(x|θ)]=0

θθx

Eine Sache, die ich immer noch neugierig finde, ist, dass es ist, wie steil die log-Wahrscheinlichkeit ist und nicht, wie steil eine andere monotone Funktion der Wahrscheinlichkeit ist (vielleicht im Zusammenhang mit "richtigen" Bewertungsfunktionen in der Entscheidungstheorie? Oder vielleicht mit den Konsistenzaxiomen der Entropie ?).

exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

Und wenn Sie die Log-Wahrscheinlichkeit über die MLE erweitern:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

θ

Wahrscheinlichkeitslogik
quelle
1
"Eine Sache, die ich immer noch neugierig finde, ist die, wie steil die log-Wahrscheinlichkeit ist und nicht, wie steil eine andere monotone Funktion der Wahrscheinlichkeit ist." Ich bin sicher, Sie könnten Analoge für Fisher-Informationen in Bezug auf andere Transformationen der Wahrscheinlichkeit ableiten, aber dann würden Sie nicht so genau einen Ausdruck für die Cramer-Rao-Untergrenze erhalten.
charles.y.zheng
2

Dies ist der intuitivste Artikel, den ich bisher gesehen habe:

Die Cramér-Rao-Untergrenze für Varianz: Adam und Evas „Unsicherheitsprinzip“ von Michael R. Powers, Journal of Risk Finance, Vol. 3, No. 7, No. 3, 2006

Die Grenze wird durch eine Analogie von Adam und Eva im Garten Eden erklärt, die eine Münze werfen, um zu sehen, wer die Frucht essen darf, und sich dann fragen, wie groß eine Probe ist, um ein bestimmtes Maß an Genauigkeit in ihrer Schätzung zu erreichen. und sie entdecken dann diese Grenze ...

Schöne Geschichte mit einer tiefen Botschaft über die Realität.

vonjd
quelle
6
Vielen Dank für die Veröffentlichung dieser Referenz. Am Ende war ich jedoch enttäuscht, dass dies den CRLB nicht wirklich erklärt. Es sagt es lediglich aus, ohne einen Einblick zu geben, warum es wahr ist, und bietet nur eine evokative, aber letztendlich bedeutungslose Sprache, wie "Informationen zusammendrücken", um es zu erklären.
Whuber
@whuber: Fair genug, ich stimme zu, dass es tiefer eintauchen könnte und das Ende etwas abrupt ist. Und doch , was ich über den Artikel ist , dass es wirklich natürlich scheint , dass es eine Verbindung zwischen Probengröße, Probe bedeuten, das Gesetz der großen Zahlen , und dass die Stichprobenvarianz kann nur auf einen Punkt reduziert werden (dh , dass es muss sein einige gebunden , was zufällig der oben erwähnte ist). Es wird auch deutlich, dass dies kein schwer fassbares mathematisches Ergebnis ist, sondern eine Aussage über die Grenzen der Erkenntnisgewinnung über die Realität.
Vonjd
2

Obwohl die oben gegebenen Erklärungen sehr interessant sind und ich sie gerne durchgesehen habe, habe ich das Gefühl, dass mir die Natur der Cramer-Rao-Untergrenze aus geometrischer Sicht am besten erklärt wurde. Diese Intuition ist eine Zusammenfassung des Konzepts der Konzentrationsellipsen aus Kapitel 6 von Scharfs Buch über statistische Signalverarbeitung .

Betrachten Sie einen unvoreingenommenen Schätzer für . Nehmen Sie außerdem an, dass der Schätzer eine Gauß-Verteilung mit Kovarianz . Unter diesen Bedingungen ist die Verteilung von proportional zu:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Denken Sie nun an die Konturdiagramme dieser Verteilung für . Jede obere Beschränkung der Wahrscheinlichkeit von (dh ) führt zu einem Ellipsoid, das bei zentriert ist mit festem Radius . Es ist leicht zu zeigen, dass es eine Eins-zu-Eins-Beziehung zwischen dem Radius des Ellipsoids und der gewünschten Wahrscheinlichkeit . Mit anderen Worten, liegt in der Nähe von innerhalb eines Ellipsoids, das durch den Radius mit der WahrscheinlichkeitθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Dieses Ellipsoid wird als Konzentrationsellipsoid bezeichnet.

In Anbetracht der obigen Beschreibung können wir Folgendes zum CRLB sagen. Unter allen unverzerrten Schätzern repräsentiert der CRLB einen Schätzer mit einer Kovarianz , der für eine feste Wahrscheinlichkeit der "Nähe" (wie oben definiert) die kleinste hat Konzentrationsellipsoid. Die folgende Abbildung zeigt eine 2D-Darstellung (inspiriert von der Darstellung in Scharfs Buch ).ΣcRlbPrθ^crlbΣcrlbPr

2D-Darstellung des CRLB im Kontext unvoreingenommener Schätzer.

idnavid
quelle
2
Das ist verdammt gut, besonders das Bild braucht mehr positive Stimmen.
Astrid