Fisher-Informationsmatrix-Determinante für ein überparametrisiertes Modell

Betrachten Sie eine Bernoulli-Zufallsvariable $X\in\{0,1\}$ mit dem Parameter $\theta$ (Erfolgswahrscheinlichkeit). Die Wahrscheinlichkeitsfunktion und die Fisher-Information (eine $1 \times 1$ Matrix) sind:

\begin{aligned} L_{1} (θ; X) & = p (X | θ) = θ^{X} (1 - θ)^{1 - X} \\ I_{1} (θ) & = det I_{1} (θ) = \frac{1}{θ (1 - θ)} \end{aligned}

$\begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align}$

Betrachten Sie nun eine " " Version mit zwei Parametern: der Erfolgswahrscheinlichkeit und der Ausfallwahrscheinlichkeit . (Beachten Sie, dass ist und diese Einschränkung impliziert, dass einer der Parameter redundant ist.) In diesem Fall sind die Wahrscheinlichkeitsfunktion und die Fisher-Informationsmatrix (FIM): $\theta_1$ $\theta_0$ $\theta_1+\theta_0=1$

\begin{aligned} L_{2} (θ_{1}, θ_{0}; X) & = p (X | θ_{1}, θ_{0}) = θ_{1}^{X} θ_{0}^{1 - X} \\ I_{2} (θ_{1}, θ_{0}) & = (\begin{matrix} \frac{1}{θ_{1}} & 0 \\ 0 & \frac{1}{θ_{0}} \end{matrix}) \\ det I_{2} (θ) & = \frac{1}{θ_{1} θ_{0}} = \frac{1}{θ_{1} (1 - θ_{1})} \end{aligned}

$\begin{align} \mathcal{L}_2(\theta_1,\theta_0;X) &= p(\left.X\right|\theta_1,\theta_0) = \theta_1^{X}\theta_0^{1-X} \\ \mathcal{I}_2(\theta_1,\theta_0) &= \left( \begin{matrix} \frac{1}{\theta_1} & 0 \\ 0 & \frac{1}{\theta_0} \end{matrix} \right) \\ \det \mathcal{I}_2(\theta) &= \frac{1}{\theta_1 \theta_0} = \frac{1}{\theta_1 (1-\theta_1)} \end{align}$

Beachten Sie, dass die Determinanten dieser beiden FIMs identisch sind. Darüber hinaus erstreckt sich diese Eigenschaft auf den allgemeineren Fall kategorialer Modelle (dh mehr als zwei Zustände). Es scheint sich auch auf logarithmisch lineare Modelle mit verschiedenen Teilmengen von Parametern zu erstrecken, die auf Null beschränkt sind. In diesem Fall entspricht der zusätzliche "redundante" Parameter der Protokollpartitionsfunktion, und die Äquivalenz der beiden FIM-Determinanten kann basierend auf dem Schur-Komplement der größeren FIM gezeigt werden. (Bei logarithmisch linearen Modellen ist die kleinere FIM nur das Schur-Komplement der größeren FIM.)

Kann jemand erklären, ob sich diese Eigenschaft auf einen größeren Satz parametrischer Modelle erstreckt (z. B. auf alle Exponentialfamilien) und die Möglichkeit bietet, die FIM-Determinanten basierend auf einem solchen "erweiterten" Satz von Parametern abzuleiten? Das heißt, es wird jedes gegebene statistische Modell mit Parametern angenommen, die auf einer dimensionalen Mannigfaltigkeit liegen, die in einen -dimensionalen Raum eingebettet ist. Wenn wir nun den Parametersatz um eine weitere Dimension erweitern (die basierend auf den anderen vollständig eingeschränkt ist) und die FIM-basierten Parameter berechnen , erhalten wir immer dieselbe Determinante wie die auf dem Original basierende (unabhängige) Parameter? Wie hängen diese beiden FIMs zusammen? $n$ $n$ $(n+1)$ $(n+1)$ $n$

Der Grund, warum ich diese Frage stelle, ist, dass die FIM mit dem zusätzlichen Parameter oft einfacher erscheint. Mein erster Gedanke ist, dass dies im Allgemeinen nicht funktionieren sollte. Die FIM beinhaltet die Berechnung partieller Ableitungen der Log-Wahrscheinlichkeit für jeden Parameter. Diese partiellen Ableitungen gehen davon aus, dass, während sich der betreffende Parameter ändert, alle anderen Parameter konstant bleiben, was nicht wahr ist, wenn wir den zusätzlichen (eingeschränkten) Parameter einbeziehen. In diesem Fall scheinen mir die partiellen Ableitungen nicht mehr gültig zu sein, da wir nicht davon ausgehen können, dass die anderen Parameter konstant sind. Ich habe jedoch noch keine Beweise dafür gefunden, dass dies tatsächlich ein Problem ist. (Wenn partielle Ableitungen in Fällen mit abhängigen Parametern problematisch sind, handelt es sich um Gesamtableitungen $(n+1) \times (n+1)$ stattdessen benötigt? Ich habe noch kein Beispiel für die Berechnung der FIM mit Gesamtableitungen gesehen, aber vielleicht ist das die Lösung ...)

Das einzige Beispiel, das ich online finden konnte, um die FIM basierend auf einem solchen "erweiterten" Parametersatz zu berechnen, ist das folgende: Diese Hinweise enthalten ein Beispiel für die kategoriale Verteilung, wobei die erforderlichen partiellen Ableitungen wie üblich berechnet werden (dh als ob jeder Parameter unabhängig wäre , obwohl eine Einschränkung zwischen den Parametern vorhanden ist).

bernoulli-distribution parameterization fisher-information determinant Tyler Streeter
quelle

Gute Frage! Ich denke, die Zwei-Parameter-Spezifikation der Bernoulli-Zufallsvariablen ist ein ziemlich unglückliches Beispiel, da ohne die Einschränkung ist nicht länger an Dichte gebunden. Können Sie Ihre Beobachtung zum Beispiel für eine gekrümmte Exponentialfamilie reproduzieren?

p (X | θ_{1}, θ_{0}) = θ_{1}^{X} θ_{0}^{1 - X}

$p(\left.X\right|\theta_1,\theta_0) = \theta_1^{X}\theta_0^{1-X}$

Khashaa

@Khashaa Ich gehe davon aus, dass die Einschränkung im Zwei-Parameter-Fall (dem von Ihnen erwähnten) gilt, sodass die Wahrscheinlichkeitsfunktion weiterhin eine gültige Dichte ist. Ja, ich kann diese Beobachtung auch reproduzieren, z. B. für logarithmisch lineare Modelle mit verschiedenen Teilmengen von Parametern, die auf Null beschränkt sind. In diesem Fall entspricht der Parameter "redundant" der Protokollpartitionsfunktion.

θ_{1} + θ_{2} = 1

$\theta_1 + \theta_2 = 1$

Tyler Streeter

Wie wäre es mit ?

N (μ, μ^{2})

$N(\mu, \mu^2)$

Khashaa

Antworten:

Für normales lautet die Informationsmatrix Für gekrümmtes normalesIhre Beobachtung, dass Determinanten gleich sind, ist also nicht universell, aber das ist nicht die ganze Geschichte. $X\sim N(\mu,\sigma^2)$

I_{1} = (\begin{matrix} \frac{1}{σ^{2}} & 0 \\ 0 & \frac{1}{2 σ^{4}} \end{matrix})

$\mathcal{I}_1 = \left( \begin{matrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{matrix} \right)$

X \sim N (μ, μ^{2})

$X\sim N(\mu,\mu^2)$

I_{2} = \frac{3}{μ^{2}} .

$\mathcal{I}_2=\frac{3}{\mu^2}.$

Wenn die Informationsmatrix unter der Reparametrisierung , ist es im Allgemeinen nicht schwierig, dies zu erkennen Die Informationsmatrix für die ursprünglichen Parameter ist wobei der Jacobi der Transformation . $\mathcal{I}_g$

g (θ) = (g_{1} (θ), . . ., g_{k} (θ))^{'},

$g(\theta)=(g_1(\theta),...,g_k(\theta))',$

I (θ) = G^{'} I_{g} (g (θ)) G

$I(\theta)=G'I_g(g(\theta))G$

G

$G$

g = g (θ)

$g=g(\theta)$

Für Bernoulli-Beispiel und . Der Jacobi ist also und somit $(\theta_0,\theta_1)=(p,1-p)$ $g(p)=(p,1-p)$ $(1,-1)'$

I (p) = (\begin{matrix} 1 & - 1 \end{matrix}) (\begin{matrix} \frac{1}{p} & 0 \\ 0 & \frac{1}{1 - p} \end{matrix}) (\begin{matrix} 1 \\ - 1 \end{matrix}) = \frac{1}{p (1 - p)}

$\mathcal{I}(p) = \left( \begin{matrix} 1& -1 \end{matrix} \right)\left( \begin{matrix} \frac{1}{p} & 0 \\ 0 & \frac{1}{1-p} \end{matrix} \right) \left( \begin{matrix} 1 \\ -1 \end{matrix} \right)=\frac{1}{p(1-p)}$

Für ein gekrümmtes normales Beispiel ist

I_{2} = (\begin{matrix} 1 & 2 μ \end{matrix}) (\begin{matrix} \frac{1}{μ^{2}} & 0 \\ 0 & \frac{1}{2 μ^{4}} \end{matrix}) (\begin{matrix} 1 \\ 2 μ \end{matrix}) = \frac{3}{μ^{2}} .

$\mathcal{I}_2 = \left( \begin{matrix} 1& 2\mu \end{matrix} \right)\left( \begin{matrix} \frac{1}{\mu^2} & 0 \\ 0 & \frac{1}{2\mu^4} \end{matrix} \right) \left( \begin{matrix} 1 \\ 2\mu \end{matrix} \right)=\frac{3}{\mu^2}.$

Ich denke, jetzt können Sie die Determinanten leicht in Beziehung setzen.

Follow-up nach dem Kommentar

Wenn ich Sie richtig verstanden habe, ist die FIM gültig, solange Sie die Parameter sinnvoll erweitern: Die Wahrscheinlichkeit einer neuen Parametrisierung sollte eine gültige Dichte sein. Daher habe ich das Bernoulli-Beispiel als unglücklich bezeichnet.

Ich denke, der von Ihnen bereitgestellte Link weist einen schwerwiegenden Fehler bei der Ableitung der FIM für kategoriale Variablen auf, da wir und . Die Erwartung des negativen Hessischen ergibt , jedoch nicht für die Kovarianz der Score-Vektoren. Wenn Sie die Einschränkungen vernachlässigen, gilt die Informationsmatrix-Gleichheit nicht. $E(x_i^2)=\theta_i(1-\theta_i)\neq \theta_i$ $E(x_ix_j)=\theta_i\theta_j\neq 0$ $\mathrm{diag}\{1/\theta_i\}$

Khashaa
quelle

Vielen Dank für die Erwähnung des jakobianischen Transformationsansatzes und für die einfachen, klaren Beispiele. Können Sie (oder jemand anderes) das folgende Problem kommentieren, das mich noch betrifft: Wenn Sie den Parametersatz wie hier um eine Dimension erweitern, führen wir eine Einschränkung zwischen den Parametern ein, sodass alle partiellen Ableitungen (wie von erforderlich) Die FIM) sollte ungültig sein, da jetzt, wenn wir einen Parameter variieren, die anderen nicht mehr konstant sind. Ist die FIM also überhaupt für den erweiterten Parametersatz gültig, da die partiellen Ableitungen aufgrund der zusätzlichen Einschränkung ungültig sind?

Tyler Streeter

@ TylerStreeter Ich habe meine Antwort aktualisiert, um Ihr Problem zu beheben.

Khashaa

Es scheint, dass das Ergebnis für eine bestimmte Art von Beziehung zwischen den Parametern gilt.

Ohne die volle Allgemeinheit für die folgenden Ergebnisse zu beanspruchen, halte ich mich an den Fall "ein bis zwei Parameter". Bezeichne die implizite Gleichung, die die Beziehung ausdrückt, die zwischen den beiden Parametern bestehen muss. Dann die "korrekte erweiterte", "Zwei-Parameter" -Protokollwahrscheinlichkeit (nicht das, was das OP berechnet - wir werden dort ankommen) $g(\theta_0,\theta_1) =0$

L^{e} = L^{*} (θ_{0}, θ_{1}) + λ g (θ_{0}, θ_{1})

$L^e=L^*(\theta_0,\theta_1) +\lambda g(\theta_0,\theta_1)$ entspricht der wahren Wahrscheinlichkeit , da , ( ist a Multiplikator) und wir können die beiden Parameter als unabhängig behandeln, während wir unterscheiden.

L

$L$

g (θ_{0}, θ_{1}) = 0

$g(\theta_0,\theta_1)=0$

λ

$\lambda$

Unter Verwendung von Indizes zur Bezeichnung von Ableitungen in Bezug auf Parameter (eine tiefgestellte erste Ableitung, zwei tiefgestellte zweite Ableitung) ist die Determinante des Hessischen der korrekten erweiterten Log-Wahrscheinlichkeit

\begin{matrix} (1) & D_{H} (L^{e}) = [L_{00}^{*} + λ g_{00}] [L_{11}^{*} + λ g_{11}] - [L_{01}^{*} + λ g_{01}]^{2} = D_{H} (L) \end{matrix}

$D_H(L^e) = [L^*_{00}+\lambda g_{00}][L^*_{11}+\lambda g_{11}] - [L^*_{01}+\lambda g_{01}]^2 = D_H(L) \tag{1}$

Was macht das OP stattdessen?

Er betrachtet die falsche Wahrscheinlichkeit "Ignorieren" der Beziehung zwischen den beiden Parametern und ohne Berücksichtigung der Einschränkung . Er fährt dann mit der Differenzierung fort und erhält $L^*(\theta_0,\theta_1)$ $g(\theta_0,\theta_1)$

\begin{matrix} (2) & D_{H} (L^{*}) = L_{00}^{*} L_{11}^{*} - [L_{01}^{*}]^{2} \end{matrix}

$D_H(L^*) = L^*_{00}L^*_{11} - [L^*_{01}]^2 \tag{2}$

Es ist offensichtlich, dass im Allgemeinen nicht gleich . $(2)$ $(1)$

Aber wenn , dann $g_{00}=g_{11}=g_{00}=0$

(1) \to {D.}_{H.} ({L.}^{e}) = {L.}_{00}^{*} {L.}_{11}^{*} - - [{L.}_{01}^{*} {]]}^{2} = {D.}_{H.} ({L.}^{*}) = {D.}_{H.} (L.)

$(1) \rightarrow D_H(L^e) = L^*_{00}L^*_{11} - [L^*_{01}]^2 = D_H(L^*) = D_H(L)$

Also , wenn die Beziehung zwischen dem Ist - Parameter und dem redundanten Parameter ist , so dass die zweite partielle Ableitung der impliziten Funktion , dass Links sie sind alle gleich Null ist , dann ist der Ansatz, der grundsätzlich falsch ist, endet „richtig“.

Für den Fall Bernoulli haben wir tatsächlich

G (θ_{0}, θ_{1}) = θ_{0} + θ_{1} - - 1 \Rightarrow G_{00} = G_{11} = G_{01} = 0

$g(\theta_0,\theta_1) = \theta_0 + \theta_1 -1 \Rightarrow g_{00}=g_{11}=g_{01}=0$

ADDENDUM
Um auf die @ Khashaa-Frage zu antworten und die Mechanik hier zu zeigen, betrachten wir eine Wahrscheinlichkeit, die mit einem redundanten Parameter angegeben wird, aber auch unter einer Einschränkung, die den redundanten Parameter mit dem wahren verknüpft. Was wir mit Log-Wahrscheinlichkeiten tun, ist, sie zu maximieren - also haben wir hier einen Fall von eingeschränkter Maximierung. Angenommen, eine Stichprobe der Größe ,: $n$

max {L.}_{n}^{*} (θ_{0}, θ_{1}) = \ln θ_{0} \sum_{ich = 1}^{n} x_{ich} + (n - - \sum_{ich = 1}^{n} x_{ich}) \ln θ_{1}, s . t . θ_{1} = 1 - - θ_{0}

$\max L_n^*(\theta_0, \theta_1) = \ln \theta_0\sum_{i=1}^nx_i + \left(n-\sum_{i=1}^nx_i\right)\ln\theta_1,\;\; s.t. \;\; \theta_1 = 1-\theta_0$

Dieses Problem hat einen Langrangean (was ich informell oben als "korrekte erweiterte Wahrscheinlichkeit" bezeichnet habe),

{L.}^{e} = \ln θ_{0} \sum_{ich = 1}^{n} x_{ich} + (n - - \sum_{ich = 1}^{n} x_{ich}) \ln θ_{1} + λ (θ_{1} - - 1 + θ_{0})

$L^e = \ln \theta_0\sum_{i=1}^nx_i + \left(n-\sum_{i=1}^nx_i\right)\ln\theta_1 + \lambda(\theta_1 - 1+\theta_0)$

Die Bedingungen erster Ordnung für ein Maximum sind

\frac{\sum_{ich = 1}^{n} x_{ich}}{θ_{0}} + λ = 0, \frac{n - - \sum_{ich = 1}^{n} x_{ich}}{θ_{1}} + λ_{0} = 0

$\frac {\sum_{i=1}^nx_i}{\theta_0} + \lambda = 0,\;\;\; \frac {n-\sum_{i=1}^nx_i}{\theta_1} +\lambda_0 =0$

für die wir die Beziehung erhalten

\frac{\sum_{ich = 1}^{n} x_{ich}}{θ_{0}} = \frac{n - - \sum_{ich = 1}^{n} x_{ich}}{θ_{1}} \Rightarrow θ_{1} \sum_{ich = 1}^{n} x_{ich} = (n - - \sum_{ich = 1}^{n} x_{ich}) θ_{0}

$\frac {\sum_{i=1}^nx_i}{\theta_0} = \frac {n-\sum_{i=1}^nx_i}{\theta_1} \Rightarrow \theta_1\sum_{i=1}^nx_i = \left(n-\sum_{i=1}^nx_i\right)\theta_0$

Unter Verwendung der Bedingung, unter der die oben genannten gültig sind, wir $\theta_1 = 1-\theta_0$

(1 - - θ_{0}) \sum_{ich = 1}^{n} x_{ich} = (n - - \sum_{ich = 1}^{n} x_{ich}) θ_{0}

$(1-\theta_0)\sum_{i=1}^nx_i = \left(n-\sum_{i=1}^nx_i\right)\theta_0$

\Rightarrow \sum_{ich = 1}^{n} x_{ich} = n θ_{0} \Rightarrow {\hat{θ}}_{0} = \frac{1}{n} \sum_{ich = 1}^{n} x_{ich}

$\Rightarrow \sum_{i=1}^nx_i = n\theta_0 \Rightarrow \hat \theta_0 = \frac 1n\sum_{i=1}^nx_i$

wie wir sollten.

Da die Beschränkung in allen Parametern linear ist, sind ihre zweiten Ableitungen außerdem Null. Dies spiegelt sich in der Tatsache wider, dass in den ersten Ableitungen des Lagrange der Multiplikator "allein" steht und eliminiert wird, wenn wir zweite Ableitungen des Lagrange nehmen. Was uns wiederum zu einem Hessischen führt, dessen Determinante der (eindimensionalen) zweiten Ableitung der ursprünglichen Ein-Parameter-Log-Wahrscheinlichkeit entspricht, nachdem auch die Einschränkung auferlegt wurde (was das OP tut). Wenn Sie dann in beiden Fällen das Negativ des erwarteten Werts nehmen, ändert sich diese mathematische Äquivalenz nicht, und wir kommen zu der Beziehung "eindimensionale Fischerinformation = Determinante der zweidimensionalen Fischerinformation". Jetzt $\lambda$ vorausgesetzt, dass die Beschränkung in allen Parametern linear ist, erhält das OP das gleiche Ergebnis (auf der Ebene der zweiten Ableitung), ohne die Beschränkung mit einem Multiplikator in die zu maximierende Funktion einzuführen, da auf der Ebene der zweiten Ableitung das Vorhandensein / der Effekt der Einschränkung verschwindet in einem solchen Fall.

All dies hat mit Kalkül zu tun, nicht mit statistischen Konzepten.

Alecos Papadopoulos
quelle

Ich kann deiner Logik nicht folgen. Könnten Sie bitte erklären, warum Lagrange-ähnliches als "korrekt erweiterte", "Zwei-Parameter" -Log-Wahrscheinlichkeit angesehen wird? Auch der Hessische ist mir völlig rätselhaft. Berechnen Sie die beobachtete Informationsmatrix?

L^{e}

$L^e$

Khashaa

@ Khashaa Es ist eine etablierte Terminologie, dass das "Hessische" die Matrix der zweiten Ableitungen einer multivariaten Funktion ist.

Alecos Papadopoulos

Es wäre hilfreich, wenn die Downvoter hier eine Antwort posten würden - da das spezifische Beispiel des OP existiert - und eine Erklärung verlangen.

Alecos Papadopoulos

Entschuldigung, wenn meine Frage unklar war. Meine Frage war, wie Sie das Hessische mit der Informationsmatrix verknüpft haben, da ich keine Erwartung dafür sah und das Ergebnis wie eine beobachtete Informationsmatrix wirkte. Können Sie außerdem erklären, warum die richtige Loglikelihood ist? Ich denke, Sie verwenden eine prinzipielle Methode zur Bewertung der eingeschränkten Wahrscheinlichkeit, aber ich verstehe nicht, wie es funktioniert.

L^{e}

$L^e$

Khashaa

@ Khashaa Ich habe eine Ausstellung am Beispiel des OP hinzugefügt.

Alecos Papadopoulos