Welche Informationen sind Fisher-Informationen?

29

Angenommen, wir haben eine Zufallsvariable . Wenn der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.Xf(x|θ)θ0

Wie ich es verstehe, ist Fisher Information definiert als

I(θ)=E[(θf(X|θ))2]

Wenn also der wahre Parameter ist, ist . Wenn es sich jedoch nicht um den wahren Parameter handelt, haben wir eine größere Menge an Fisher-Informationen.θ0I(θ)=0θ0

meine Fragen

  1. Misst die Fisher-Information den "Fehler" eines bestimmten MLE? Mit anderen Worten, impliziert die Existenz positiver Fisher-Informationen nicht, dass mein MLE nicht ideal sein kann?
  2. Inwiefern unterscheidet sich diese Definition von "Information" von der von Shannon? Warum nennen wir es Informationen?
Stan Shunpike
quelle
Warum schreibst du es ? Die Erwartung liegt über den Werten von verteilt sind, als ob sie von Ihrer Verteilung mit dem Parameter . X θEθXθ
Neil G
3
Auch ist beim wahren Parameter nicht Null. I(θ)
Neil G
Das E (S) ist Null (dh: Erwartung der Bewertungsfunktion), aber wie Neil G schrieb - Fischerinformationen (V (S)) sind (normalerweise) nicht Null.
Tal Galili

Antworten:

15

Wir versuchen, die anderen Antworten zu ergänzen ... Welche Informationen sind Fisher-Informationen? Beginnen Sie mit der Log-Wahrscheinlichkeitsfunktion als Funktion von für , dem Parameterraum. Unter der Annahme einiger Regelmäßigkeitsbedingungen, die wir hier nicht diskutieren, haben wir (Wir werden Ableitungen in Bezug auf den Parameter wie hier als Punkte schreiben). Die Varianz ist die Fisher-Information θ θ & THgr; E

(θ)=logf(x;θ)
θθΘI(θ)=Eθ( ˙ l (θ))2=-Eθ ¨ l (θ)θ ˙ l (θ)=0 ˙ l (θ)Eθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
Die letzte Formel zeigt, dass es sich um die (negative) Krümmung der Loglikelihood-Funktion handelt. Oft findet man den Maximum Likelihood Estimator (mle) von durch Lösen der Likelihood-Gleichung wenn die Fisher-Information als Varianz der Punktzahl ist groß, dann ist die Lösung für diese Gleichung sehr datenempfindlich, was die Hoffnung auf eine hohe Präzision der mle weckt. Dies wird zumindest asymptotisch bestätigt, wobei die asymptotische Varianz des mle das Gegenteil der Fisher-Information ist.θ˙(θ)=0˙(θ)

Wie können wir das interpretieren? ist die Wahrscheinlichkeit , dass Informationen über den Parameter aus der Probe. Dies kann wirklich nur in einem relativen Sinne interpretiert werden, wie wenn wir es verwenden, um die Plausibilitäten zweier unterschiedlicher möglicher Parameterwerte über den Wahrscheinlichkeitsverhältnis-Test . Die Änderungsrate des LogLikelihood ist die Score - Funktion sagt uns , wie schnell sich die Wahrscheinlichkeit ändert, und deren Varianz , wie sehr diese von Probe zu Probe variiert, bei einer gegebenen paramiter Wert, sagen wir . Die Gleichung (was wirklich überraschend ist!) θ l ( θ 0 ) - l ( θ 1 ) ˙ l ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ l ( θ ) θ 0 ˙ l ( θ ) | θ = θ 0 θ θ 0(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

ich(θ)=-Eθ¨(θ)
sagt uns, dass es eine Beziehung (Gleichheit) zwischen der Variabilität in der Information (Wahrscheinlichkeit) für einen gegebenen Parameterwert, ; , und der Krümmung der Wahrscheinlichkeitsfunktion für diesen Parameterwert gibt. Dies ist eine überraschende Beziehung zwischen der Variabilität (Varianz) dieser Statistik und der erwarteten Änderung der Stimmung, wenn wir den Parameter in einem Intervall variieren (für die gleichen Daten). Das ist wirklich seltsam, überraschend und kraftvoll!θ0˙(θ)θ=θ0θθ0

Also, was ist die Wahrscheinlichkeitsfunktion? Wir denken in der Regel des statistischen Modells als eine Familie von Wahrscheinlichkeitsverteilungen für Daten , indiziert durch den Parameter ein Element in dem Parameterraum . Wir denken, dass dieses Modell wahr ist, wenn es einen Wert so dass die Daten tatsächlich die Wahrscheinlichkeitsverteilung . Wir erhalten also ein statistisches Modell, indem wir die wahre Wahrscheinlichkeitsverteilung für die Datenerzeugungx & thgr; θ 0Θ x f ( x ; & thgr ; 0 ) f ( x ; & thgr ; 0 ){f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)in einer Familie von Wahrscheinlichkeitsverteilungen. Es ist jedoch klar, dass eine solche Einbettung auf viele verschiedene Arten erfolgen kann, und jede solche Einbettung wird ein "wahres" Modell sein, und sie wird unterschiedliche Wahrscheinlichkeitsfunktionen geben. Und ohne eine solche Einbettung gibt es keine Wahrscheinlichkeitsfunktion. Es scheint, dass wir wirklich Hilfe brauchen, einige Grundsätze, wie man eine Einbettung mit Bedacht wählt!

Also, was bedeutet das? Dies bedeutet, dass die Wahl der Wahrscheinlichkeitsfunktion uns sagt, wie wir erwarten würden, dass sich die Daten ändern, wenn sich die Wahrheit ein wenig ändert. Dies kann jedoch durch die Daten nicht wirklich verifiziert werden, da die Daten nur Informationen über die wahre Modellfunktion die die Daten tatsächlich erzeugt hat, und nicht über alle anderen Elemente im ausgewählten Modell. Auf diese Weise sehen wir, dass die Wahl der Wahrscheinlichkeitsfunktion der Wahl eines Prioren in der Bayes'schen Analyse ähnlich ist und Nicht-Daten-Informationen in die Analyse einspeist. Betrachten wir dies in einem einfachen (etwas künstlichen) Beispiel und betrachten wir den Effekt der Einbettung von in ein Modell auf verschiedene Arten.f ( x ; & thgr ; 0 )f(x;θ0)f(x;θ0)

Nehmen wir an, uiv als . Das ist also die wahre, datenerzeugende Verteilung. Betten wir dies nun auf zwei verschiedene Arten in ein Modell ein, Modell A und Modell B. Sie können überprüfen, ob dies für übereinstimmt . N ( μ = 10 , σ 2 = 1 ) A : X 1 , , X n iid N ( μ , σ 2 = 1 ) , μ RX1,,XnN(μ=10,σ2=1)μ = 10

EIN:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Die Loglikelihood-Funktionen werden zu

EIN(μ)=-n2Log(2π)-12ich(xich-μ)2B(μ)=-n2Log(2π)-n2Log(μ/10)-102ich(xich-μ)2μ

Die Bewertungsfunktionen: (Loglikelihood-Ableitungen): und die Krümmungen Die Fisher-Informationen hängen also wirklich von der Einbettung ab. Nun berechnen wir die Fisher-Information mit dem wahren Wert , daher sind die Fisher-Informationen zum Parameter in Modell B etwas größer.

˙EIN(μ)=n(x¯-μ)˙B(μ)=-n2μ-102ich(xichμ)2-15n
¨EIN(μ)=-n¨B(μ)=n2μ2+102ich2xich2μ3
μ=10
ichEIN(μ=10)=n,ichB(μ=10)=n(1200+20202000)>n

Dies zeigt in gewisser Weise, dass die Fisher-Informationen Aufschluss darüber geben, wie schnell sich die Informationen aus den Daten über den Parameter geändert hätten, wenn sich der maßgebliche Parameter in der durch die Einbettung in eine Modellfamilie postulierten Weise geändert hätte . Die Erklärung für höhere Informationen in Modell B ist, dass unsere Modellfamilie B postuliert, dass, wenn die Erwartung zugenommen hätte, auch die Varianz zugenommen hätte . Damit enthält die Stichprobenvarianz unter Modell B auch Informationen über , was unter Modell A nicht der Fall ist.μ

Dieses Beispiel zeigt auch, dass wir wirklich eine Theorie brauchen, um Modellfamilien konstruieren zu können.

kjetil b halvorsen
quelle
1
gute Erklärung. Warum sagst du ? es ist eine Funktion von - ist es nicht 0 nur, wenn es am wahren Parameter ? θ θ 0\ Eθ˙(θ)=0θθ0
Ihadanny
1
Ja, was Sie sagen, ist wahr, @idadanny Es ist null, wenn es mit dem wahren Parameterwert bewertet wird.
kjetil b halvorsen
Nochmals vielen Dank an @kjetil - also noch eine Frage: Trifft die überraschende Beziehung zwischen der Varianz der Punktzahl und der Krümmung der Wahrscheinlichkeit für jedes ? oder nur in der Nähe des wahren Parameters ? θ 0θθ0
Ihadanny
Wieder gilt diese Beziehung für den wahren Parameterwert. Damit dies jedoch eine große Hilfe ist, muss Kontinuität vorhanden sein, damit dies in einigen Gegenden in etwa zutrifft, da wir es zum geschätzten Wert , nicht nur zum wahren (unbekannten) Wert. θ^
kjetil b halvorsen
gilt die Beziehung für den wahren Parameter , sie gilt fast für da wir annehmen, dass sie sich in der Nähe von , aber für ein allgemeines sie nicht, oder? θ m l e θ 0 θ 1θ0θmleθ0θ1
Ihadanny
31

Denken wir an die negative Log-Likelihood-Funktion . Die negative Bewertung ist die Steigung in Bezug auf den Parameterwert. Beim wahren Parameter ist die Punktzahl Null. Ansonsten ist es Richtung auf das Minimum ergibt (oder im Fall von nicht-konvexen , einem Sattelpunkt oder lokalen Minimum oder Maximum).

Die Fisher-Information mißt die Krümmung von um wenn die Daten ; folgen . Mit anderen Worten, es gibt an, wie stark sich das Wackeln des Parameters auf Ihre Log-Wahrscheinlichkeit auswirken würde.θ θθθ

Bedenken Sie, dass Sie ein großes Modell mit Millionen von Parametern hatten. Und Sie hatten ein kleines USB-Stick, auf dem Sie Ihr Modell speichern konnten. Wie sollten Sie priorisieren, wie viele Bits jedes Parameters gespeichert werden sollen? Die richtige Antwort ist, Bits gemäß den Fisher-Informationen zuzuweisen (Rissanen schrieb darüber). Wenn die Fisher-Information eines Parameters Null ist, spielt dieser Parameter keine Rolle.

Wir nennen es "Information", weil die Fisher-Information misst, wie viel dieser Parameter über die Daten aussagt.


Eine umgangssprachliche Art, darüber nachzudenken, lautet wie folgt: Angenommen, die Parameter steuern ein Auto, und die Daten befinden sich auf dem Rücksitz und korrigieren den Fahrer. Das Ärgerliche an den Daten ist die Fisher-Information. Wenn die Daten den Fahrer fahren lassen, ist die Fisher-Information Null; Wenn die Daten ständig korrigiert werden, sind sie groß. In diesem Sinne ist die Fisher-Information die Informationsmenge, die von den Daten zu den Parametern geht.

Überlegen Sie, was passiert, wenn Sie das Lenkrad empfindlicher machen. Dies entspricht einer Reparametrisierung. In diesem Fall wollen die Daten aus Angst vor dem Übersteuern des Autos nicht so laut sein. Diese Art der Reparametrisierung verringert die Fisher-Informationen.

Neil G
quelle
20

Ergänzend zu @ NeilGs netter Antwort (+1) und zur Beantwortung Ihrer spezifischen Fragen:

  1. Ich würde sagen, es zählt die "Präzision" und nicht der "Fehler".

ichichj,jtr(ich)muss positiv sein. Dies bedeutet, dass Sie gemäß Ihrer Behauptung nur "nicht ideale" Schätzer haben können. Nein, eine positive Fisher-Information bezieht sich nicht darauf, wie ideal Ihr MLE ist.

  1. Die Definition unterscheidet sich in beiden Fällen darin, wie wir den Begriff der Information interpretieren. Trotzdem hängen die beiden Messungen eng zusammen.

Die Umkehrung der Fisher-Information ist die minimale Varianz eines unverzerrten Schätzers ( Cramér-Rao-Bindung ). In diesem Sinne gibt die Informationsmatrix an, wie viel Information über die geschätzten Koeffizienten in den Daten enthalten ist. Im Gegenteil, die Shannon-Entropie wurde der Thermodynamik entnommen. Es bezieht sich auf den Informationsgehalt eines bestimmten Werts einer Variablen als wobei die Wahrscheinlichkeit ist, mit der die Variable den Wert annimmt. Beides ist ein Maß dafür, wie "informativ" eine Variable ist. Im ersten Fall beurteilen Sie diese Informationen jedoch nach der Genauigkeit, im zweiten nach der Unordnung. verschiedene seiten, gleiche münze! : Dp-p·lOG2(p)p

Um es zusammenzufassen: Die Umkehrung der Fisher-Informationsmatrix, die bei den ML-Schätzerwerten ausgewertet habe, ist die asymptotische oder ungefähre Kovarianzmatrix. Da diese ML-Schätzerwerte grafisch in einem lokalen Minimum gefunden werden, zeigt die Fisher-Information, wie tief dieses Minimum ist und wie viel Spielraum Sie in der Nähe haben. Ich fand diese Arbeit von Lutwak et al. zu den Erweiterungen der Fischerinformation und der Ungleichheit bei Stam eine informative Lektüre zu diesem Thema. Die Wikipedia-Artikel zur Fisher Information Metric und zur Jensen-Shannon-Divergenz sind ebenfalls ein guter Einstieg.ich

usεr11852 sagt Reinstate Monic
quelle