Angenommen, wir haben eine Zufallsvariable . Wenn der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.
Wie ich es verstehe, ist Fisher Information definiert als
Wenn also der wahre Parameter ist, ist . Wenn es sich jedoch nicht um den wahren Parameter handelt, haben wir eine größere Menge an Fisher-Informationen.
meine Fragen
- Misst die Fisher-Information den "Fehler" eines bestimmten MLE? Mit anderen Worten, impliziert die Existenz positiver Fisher-Informationen nicht, dass mein MLE nicht ideal sein kann?
- Inwiefern unterscheidet sich diese Definition von "Information" von der von Shannon? Warum nennen wir es Informationen?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
quelle
quelle
Antworten:
Wir versuchen, die anderen Antworten zu ergänzen ... Welche Informationen sind Fisher-Informationen? Beginnen Sie mit der Log-Wahrscheinlichkeitsfunktion als Funktion von für , dem Parameterraum. Unter der Annahme einiger Regelmäßigkeitsbedingungen, die wir hier nicht diskutieren, haben wir (Wir werden Ableitungen in Bezug auf den Parameter wie hier als Punkte schreiben). Die Varianz ist die Fisher-Information θ θ ∈ & THgr; E ∂
Wie können wir das interpretieren? ist die Wahrscheinlichkeit , dass Informationen über den Parameter aus der Probe. Dies kann wirklich nur in einem relativen Sinne interpretiert werden, wie wenn wir es verwenden, um die Plausibilitäten zweier unterschiedlicher möglicher Parameterwerte über den Wahrscheinlichkeitsverhältnis-Test . Die Änderungsrate des LogLikelihood ist die Score - Funktion sagt uns , wie schnell sich die Wahrscheinlichkeit ändert, und deren Varianz , wie sehr diese von Probe zu Probe variiert, bei einer gegebenen paramiter Wert, sagen wir . Die Gleichung (was wirklich überraschend ist!) θ l ( θ 0 ) - l ( θ 1 ) ˙ l ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ l ( θ ) θ 0 ˙ l ( θ ) | θ = θ 0 θ θ 0ℓ ( θ ) θ ℓ ( θ0) - ℓ ( θ1) ℓ˙( θ ) ich( θ ) θ0
Also, was ist die Wahrscheinlichkeitsfunktion? Wir denken in der Regel des statistischen Modells als eine Familie von Wahrscheinlichkeitsverteilungen für Daten , indiziert durch den Parameter ein Element in dem Parameterraum . Wir denken, dass dieses Modell wahr ist, wenn es einen Wert so dass die Daten tatsächlich die Wahrscheinlichkeitsverteilung . Wir erhalten also ein statistisches Modell, indem wir die wahre Wahrscheinlichkeitsverteilung für die Datenerzeugungx & thgr; θ 0 ∈ Θ x f ( x ; & thgr ; 0 ) f ( x ; & thgr ; 0 ){ f( x ; θ ) , θ ∈ Θ } x θ Θ θ0& egr ; & THgr; x f( x ; θ0) f( x ; θ0) in einer Familie von Wahrscheinlichkeitsverteilungen. Es ist jedoch klar, dass eine solche Einbettung auf viele verschiedene Arten erfolgen kann, und jede solche Einbettung wird ein "wahres" Modell sein, und sie wird unterschiedliche Wahrscheinlichkeitsfunktionen geben. Und ohne eine solche Einbettung gibt es keine Wahrscheinlichkeitsfunktion. Es scheint, dass wir wirklich Hilfe brauchen, einige Grundsätze, wie man eine Einbettung mit Bedacht wählt!
Also, was bedeutet das? Dies bedeutet, dass die Wahl der Wahrscheinlichkeitsfunktion uns sagt, wie wir erwarten würden, dass sich die Daten ändern, wenn sich die Wahrheit ein wenig ändert. Dies kann jedoch durch die Daten nicht wirklich verifiziert werden, da die Daten nur Informationen über die wahre Modellfunktion die die Daten tatsächlich erzeugt hat, und nicht über alle anderen Elemente im ausgewählten Modell. Auf diese Weise sehen wir, dass die Wahl der Wahrscheinlichkeitsfunktion der Wahl eines Prioren in der Bayes'schen Analyse ähnlich ist und Nicht-Daten-Informationen in die Analyse einspeist. Betrachten wir dies in einem einfachen (etwas künstlichen) Beispiel und betrachten wir den Effekt der Einbettung von in ein Modell auf verschiedene Arten.f ( x ; & thgr ; 0 )f( x ; θ0) f( x ; θ0)
Nehmen wir an, uiv als . Das ist also die wahre, datenerzeugende Verteilung. Betten wir dies nun auf zwei verschiedene Arten in ein Modell ein, Modell A und Modell B. Sie können überprüfen, ob dies für übereinstimmt . N ( μ = 10 , σ 2 = 1 ) A : X 1 , … , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RX1, … , Xn N( μ = 10 , σ2= 1 ) μ = 10
Die Loglikelihood-Funktionen werden zu
Die Bewertungsfunktionen: (Loglikelihood-Ableitungen): und die Krümmungen Die Fisher-Informationen hängen also wirklich von der Einbettung ab. Nun berechnen wir die Fisher-Information mit dem wahren Wert , daher sind die Fisher-Informationen zum Parameter in Modell B etwas größer.
Dies zeigt in gewisser Weise, dass die Fisher-Informationen Aufschluss darüber geben, wie schnell sich die Informationen aus den Daten über den Parameter geändert hätten, wenn sich der maßgebliche Parameter in der durch die Einbettung in eine Modellfamilie postulierten Weise geändert hätte . Die Erklärung für höhere Informationen in Modell B ist, dass unsere Modellfamilie B postuliert, dass, wenn die Erwartung zugenommen hätte, auch die Varianz zugenommen hätte . Damit enthält die Stichprobenvarianz unter Modell B auch Informationen über , was unter Modell A nicht der Fall ist.μ
Dieses Beispiel zeigt auch, dass wir wirklich eine Theorie brauchen, um Modellfamilien konstruieren zu können.
quelle
Denken wir an die negative Log-Likelihood-Funktion . Die negative Bewertung ist die Steigung in Bezug auf den Parameterwert. Beim wahren Parameter ist die Punktzahl Null. Ansonsten ist es Richtung auf das Minimum ergibt (oder im Fall von nicht-konvexen , einem Sattelpunkt oder lokalen Minimum oder Maximum).ℓ ℓℓ ℓ ℓ
Die Fisher-Information mißt die Krümmung von um wenn die Daten ; folgen . Mit anderen Worten, es gibt an, wie stark sich das Wackeln des Parameters auf Ihre Log-Wahrscheinlichkeit auswirken würde.θ θℓ θ θ
Bedenken Sie, dass Sie ein großes Modell mit Millionen von Parametern hatten. Und Sie hatten ein kleines USB-Stick, auf dem Sie Ihr Modell speichern konnten. Wie sollten Sie priorisieren, wie viele Bits jedes Parameters gespeichert werden sollen? Die richtige Antwort ist, Bits gemäß den Fisher-Informationen zuzuweisen (Rissanen schrieb darüber). Wenn die Fisher-Information eines Parameters Null ist, spielt dieser Parameter keine Rolle.
Wir nennen es "Information", weil die Fisher-Information misst, wie viel dieser Parameter über die Daten aussagt.
Eine umgangssprachliche Art, darüber nachzudenken, lautet wie folgt: Angenommen, die Parameter steuern ein Auto, und die Daten befinden sich auf dem Rücksitz und korrigieren den Fahrer. Das Ärgerliche an den Daten ist die Fisher-Information. Wenn die Daten den Fahrer fahren lassen, ist die Fisher-Information Null; Wenn die Daten ständig korrigiert werden, sind sie groß. In diesem Sinne ist die Fisher-Information die Informationsmenge, die von den Daten zu den Parametern geht.
Überlegen Sie, was passiert, wenn Sie das Lenkrad empfindlicher machen. Dies entspricht einer Reparametrisierung. In diesem Fall wollen die Daten aus Angst vor dem Übersteuern des Autos nicht so laut sein. Diese Art der Reparametrisierung verringert die Fisher-Informationen.
quelle
Ergänzend zu @ NeilGs netter Antwort (+1) und zur Beantwortung Ihrer spezifischen Fragen:
Die Umkehrung der Fisher-Information ist die minimale Varianz eines unverzerrten Schätzers ( Cramér-Rao-Bindung ). In diesem Sinne gibt die Informationsmatrix an, wie viel Information über die geschätzten Koeffizienten in den Daten enthalten ist. Im Gegenteil, die Shannon-Entropie wurde der Thermodynamik entnommen. Es bezieht sich auf den Informationsgehalt eines bestimmten Werts einer Variablen als wobei die Wahrscheinlichkeit ist, mit der die Variable den Wert annimmt. Beides ist ein Maß dafür, wie "informativ" eine Variable ist. Im ersten Fall beurteilen Sie diese Informationen jedoch nach der Genauigkeit, im zweiten nach der Unordnung. verschiedene seiten, gleiche münze! : Dp- p ⋅ l o g2( p ) p
Um es zusammenzufassen: Die Umkehrung der Fisher-Informationsmatrix, die bei den ML-Schätzerwerten ausgewertet habe, ist die asymptotische oder ungefähre Kovarianzmatrix. Da diese ML-Schätzerwerte grafisch in einem lokalen Minimum gefunden werden, zeigt die Fisher-Information, wie tief dieses Minimum ist und wie viel Spielraum Sie in der Nähe haben. Ich fand diese Arbeit von Lutwak et al. zu den Erweiterungen der Fischerinformation und der Ungleichheit bei Stam eine informative Lektüre zu diesem Thema. Die Wikipedia-Artikel zur Fisher Information Metric und zur Jensen-Shannon-Divergenz sind ebenfalls ein guter Einstieg.ich
quelle