Betrachten Sie eine Bernoulli-Zufallsvariable mit dem Parameter (Erfolgswahrscheinlichkeit). Die Wahrscheinlichkeitsfunktion und die Fisher-Information (eine Matrix) sind:
Betrachten Sie nun eine " " Version mit zwei Parametern: der Erfolgswahrscheinlichkeit und der Ausfallwahrscheinlichkeit . (Beachten Sie, dass ist und diese Einschränkung impliziert, dass einer der Parameter redundant ist.) In diesem Fall sind die Wahrscheinlichkeitsfunktion und die Fisher-Informationsmatrix (FIM):
Beachten Sie, dass die Determinanten dieser beiden FIMs identisch sind. Darüber hinaus erstreckt sich diese Eigenschaft auf den allgemeineren Fall kategorialer Modelle (dh mehr als zwei Zustände). Es scheint sich auch auf logarithmisch lineare Modelle mit verschiedenen Teilmengen von Parametern zu erstrecken, die auf Null beschränkt sind. In diesem Fall entspricht der zusätzliche "redundante" Parameter der Protokollpartitionsfunktion, und die Äquivalenz der beiden FIM-Determinanten kann basierend auf dem Schur-Komplement der größeren FIM gezeigt werden. (Bei logarithmisch linearen Modellen ist die kleinere FIM nur das Schur-Komplement der größeren FIM.)
Kann jemand erklären, ob sich diese Eigenschaft auf einen größeren Satz parametrischer Modelle erstreckt (z. B. auf alle Exponentialfamilien) und die Möglichkeit bietet, die FIM-Determinanten basierend auf einem solchen "erweiterten" Satz von Parametern abzuleiten? Das heißt, es wird jedes gegebene statistische Modell mit Parametern angenommen, die auf einer dimensionalen Mannigfaltigkeit liegen, die in einen -dimensionalen Raum eingebettet ist. Wenn wir nun den Parametersatz um eine weitere Dimension erweitern (die basierend auf den anderen vollständig eingeschränkt ist) und die FIM-basierten Parameter berechnen , erhalten wir immer dieselbe Determinante wie die auf dem Original basierende (unabhängige) Parameter? Wie hängen diese beiden FIMs zusammen?n ( n + 1 ) ( n + 1 ) n
Der Grund, warum ich diese Frage stelle, ist, dass die FIM mit dem zusätzlichen Parameter oft einfacher erscheint. Mein erster Gedanke ist, dass dies im Allgemeinen nicht funktionieren sollte. Die FIM beinhaltet die Berechnung partieller Ableitungen der Log-Wahrscheinlichkeit für jeden Parameter. Diese partiellen Ableitungen gehen davon aus, dass, während sich der betreffende Parameter ändert, alle anderen Parameter konstant bleiben, was nicht wahr ist, wenn wir den zusätzlichen (eingeschränkten) Parameter einbeziehen. In diesem Fall scheinen mir die partiellen Ableitungen nicht mehr gültig zu sein, da wir nicht davon ausgehen können, dass die anderen Parameter konstant sind. Ich habe jedoch noch keine Beweise dafür gefunden, dass dies tatsächlich ein Problem ist. (Wenn partielle Ableitungen in Fällen mit abhängigen Parametern problematisch sind, handelt es sich um Gesamtableitungenstattdessen benötigt? Ich habe noch kein Beispiel für die Berechnung der FIM mit Gesamtableitungen gesehen, aber vielleicht ist das die Lösung ...)
Das einzige Beispiel, das ich online finden konnte, um die FIM basierend auf einem solchen "erweiterten" Parametersatz zu berechnen, ist das folgende: Diese Hinweise enthalten ein Beispiel für die kategoriale Verteilung, wobei die erforderlichen partiellen Ableitungen wie üblich berechnet werden (dh als ob jeder Parameter unabhängig wäre , obwohl eine Einschränkung zwischen den Parametern vorhanden ist).
quelle
Antworten:
Für normales lautet die Informationsmatrix Für gekrümmtes normalesIhre Beobachtung, dass Determinanten gleich sind, ist also nicht universell, aber das ist nicht die ganze Geschichte.I 1 = ( 1X.∼ N.( μ , σ2) X∼N(μ,μ2)I2=3
Wenn die Informationsmatrix unter der Reparametrisierung , ist es im Allgemeinen nicht schwierig, dies zu erkennen Die Informationsmatrix für die ursprünglichen Parameter ist wobei der Jacobi der Transformation . g(θ)=( g 1 (θ),..., G k (θ) ) ' ,I(θ)= G ' I g (g(θ))GGg=g(θ)ichG
Für Bernoulli-Beispiel und . Der Jacobi ist also und somit( θ0, θ1) = ( p , 1 - p ) G( p ) = ( p , 1 - p ) ( 1 , - 1 )'
Für ein gekrümmtes normales Beispiel ist
Ich denke, jetzt können Sie die Determinanten leicht in Beziehung setzen.
Follow-up nach dem Kommentar
Wenn ich Sie richtig verstanden habe, ist die FIM gültig, solange Sie die Parameter sinnvoll erweitern: Die Wahrscheinlichkeit einer neuen Parametrisierung sollte eine gültige Dichte sein. Daher habe ich das Bernoulli-Beispiel als unglücklich bezeichnet.
Ich denke, der von Ihnen bereitgestellte Link weist einen schwerwiegenden Fehler bei der Ableitung der FIM für kategoriale Variablen auf, da wir und . Die Erwartung des negativen Hessischen ergibt , jedoch nicht für die Kovarianz der Score-Vektoren. Wenn Sie die Einschränkungen vernachlässigen, gilt die Informationsmatrix-Gleichheit nicht.E.( x2ich) = θich( 1 - θich) ≠ θich E.( xichxj) = θichθj≠ 0 d i a g {1 / θich}}
quelle
Es scheint, dass das Ergebnis für eine bestimmte Art von Beziehung zwischen den Parametern gilt.
Ohne die volle Allgemeinheit für die folgenden Ergebnisse zu beanspruchen, halte ich mich an den Fall "ein bis zwei Parameter". Bezeichne die implizite Gleichung, die die Beziehung ausdrückt, die zwischen den beiden Parametern bestehen muss. Dann die "korrekte erweiterte", "Zwei-Parameter" -Protokollwahrscheinlichkeit (nicht das, was das OP berechnet - wir werden dort ankommen)G( θ0, θ1) = 0
Unter Verwendung von Indizes zur Bezeichnung von Ableitungen in Bezug auf Parameter (eine tiefgestellte erste Ableitung, zwei tiefgestellte zweite Ableitung) ist die Determinante des Hessischen der korrekten erweiterten Log-Wahrscheinlichkeit
Was macht das OP stattdessen?
Er betrachtet die falsche Wahrscheinlichkeit "Ignorieren" der Beziehung zwischen den beiden Parametern und ohne Berücksichtigung der Einschränkung . Er fährt dann mit der Differenzierung fort und erhältL.∗( θ0, θ1) G( θ0, θ1)
Es ist offensichtlich, dass im Allgemeinen nicht gleich .( 2 ) ( 1 )
Aber wenn , dannG00= g11= g00= 0
Also , wenn die Beziehung zwischen dem Ist - Parameter und dem redundanten Parameter ist , so dass die zweite partielle Ableitung der impliziten Funktion , dass Links sie sind alle gleich Null ist , dann ist der Ansatz, der grundsätzlich falsch ist, endet „richtig“.
Für den Fall Bernoulli haben wir tatsächlich
ADDENDUMn
Um auf die @ Khashaa-Frage zu antworten und die Mechanik hier zu zeigen, betrachten wir eine Wahrscheinlichkeit, die mit einem redundanten Parameter angegeben wird, aber auch unter einer Einschränkung, die den redundanten Parameter mit dem wahren verknüpft. Was wir mit Log-Wahrscheinlichkeiten tun, ist, sie zu maximieren - also haben wir hier einen Fall von eingeschränkter Maximierung. Angenommen, eine Stichprobe der Größe ,:
Dieses Problem hat einen Langrangean (was ich informell oben als "korrekte erweiterte Wahrscheinlichkeit" bezeichnet habe),
Die Bedingungen erster Ordnung für ein Maximum sind
für die wir die Beziehung erhalten
Unter Verwendung der Bedingung, unter der die oben genannten gültig sind, wirθ1= 1 - θ0
wie wir sollten.
Da die Beschränkung in allen Parametern linear ist, sind ihre zweiten Ableitungen außerdem Null. Dies spiegelt sich in der Tatsache wider, dass in den ersten Ableitungen des Lagrange der Multiplikator "allein" steht und eliminiert wird, wenn wir zweite Ableitungen des Lagrange nehmen. Was uns wiederum zu einem Hessischen führt, dessen Determinante der (eindimensionalen) zweiten Ableitung der ursprünglichen Ein-Parameter-Log-Wahrscheinlichkeit entspricht, nachdem auch die Einschränkung auferlegt wurde (was das OP tut). Wenn Sie dann in beiden Fällen das Negativ des erwarteten Werts nehmen, ändert sich diese mathematische Äquivalenz nicht, und wir kommen zu der Beziehung "eindimensionale Fischerinformation = Determinante der zweidimensionalen Fischerinformation". Jetztλ vorausgesetzt, dass die Beschränkung in allen Parametern linear ist, erhält das OP das gleiche Ergebnis (auf der Ebene der zweiten Ableitung), ohne die Beschränkung mit einem Multiplikator in die zu maximierende Funktion einzuführen, da auf der Ebene der zweiten Ableitung das Vorhandensein / der Effekt der Einschränkung verschwindet in einem solchen Fall.
All dies hat mit Kalkül zu tun, nicht mit statistischen Konzepten.
quelle