Zusammenhang zwischen Fisher-Metrik und der relativen Entropie

20

Kann jemand beweist die folgende Verbindung zwischen Fisher Informationen Metrik und der relativen Entropie (oder KL Divergenz) in eine rein mathematischen rigorosen Art und Weise?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
wobei , g_ {i, j} = \ int \ partial_i (\ log p (x; a)) \ partial_j (\ log p (x; a)) ~ p (x; a) ~ dx und g_ {i, j} \, da ^ i \, da ^ j: = \ sum_ {i, j} g_ {i, j} \, da ^ i \, da ^ j ist die Einstein-Summationskonvention.a=(a1,,an),da=(da1,,dan)
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
gi,jdaidaj:=i,jgi,jdaidaj

Ich fand das oben in dem netten Blog von John Baez, wo Vasileios Anagnostopoulos in den Kommentaren darüber sagt.

Kumara
quelle
1
Sehr geehrte Kumara, zur Verdeutlichung wäre es hilfreich, Ihre Notation, insbesondere die Bedeutung von g_ {i, j} , besser zu erläutern gi,j. Ich denke auch, dass Ihrem Ausdruck ein konstanter Faktor von 1/2 vor dem ersten Term auf der rechten Seite der Anzeigegleichung fehlt . Man beachte, dass das, was Kullback selbst Divergenz nannte (unter Verwendung der Notation J(,) ), die symmetrisierte Version der sogenannten KL-Divergenz ist, dh J(p,q)=D(pq)+D(qp) . Die KL-Divergenz wurde in Kullbacks Schriften mit ich(,) . Dies erklärt auch den Faktor 1/2 . Prost.
Kardinal

Antworten:

19

1946 stellte der Geophysiker und Bayes-Statistiker Harold Jeffreys die heutige Kullback-Leibler-Divergenz vor und entdeckte, dass für zwei Distributionen, die "unendlich nah" sind (hoffen wir, dass die Math SE-Leute das nicht sehen ;-), wir schreiben können ihre Kullback-Leibler-Divergenz als quadratische Form, deren Koeffizienten durch die Elemente der Fisher-Informationsmatrix gegeben sind. Er interpretierte diese quadratische Form als Element der Länge einer Riemannschen Mannigfaltigkeit, wobei die Fisher-Information die Rolle der Riemannschen Metrik spielte. Aus dieser Geometrisierung des statistischen Modells hat er Jeffreys Prior als das Maß abgeleitet, das auf natürliche Weise durch die Riemannsche Metrik induziert wird, und dieses Maß kann als eine an sich gleichmäßige Verteilung auf der Mannigfaltigkeit interpretiert werden, obwohl es im Allgemeinen kein endliches Maß ist.

Um einen strengen Beweis zu erstellen, müssen Sie alle Regelmäßigkeitsbedingungen herausfinden und auf die Reihenfolge der Fehlerausdrücke in den Taylor-Erweiterungen achten. Hier ist eine kurze Skizze des Arguments.

Die symmetrisierte Kullback-Leibler-Divergenz zwischen zwei Dichten und ist definiert alsfG

D[f,g]=(f(x)G(x))Log(f(x)G(x))dx.

Wenn wir eine Familie von Dichten haben, die durch , dannθ=(θ1,,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
Δ & thgr; = ( Δ & thgr; 1 , ... , Δ & thgr; k ) Δ p ( x | & thgr; ) = p ( x | & thgr; ) - p ( x | & thgr; + Δ & thgr; ) wobei . Einführen der Notation einige einfache Algebra gibt Wir verwenden die Taylor-Erweiterung für den natürlichen Logarithmus Δθ=(Δθ1,,Δθk)
Δp(xθ)=p(xθ)p(xθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
und daher Aber Daher ist in dem
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)ich=1kp(xθ)θichΔθich=ich=1kLogp(xθ)θichΔθich.
D[p(θ),p(θ+Δθ)]i,j=1kgijΔθiΔθj,
gij=logp(xθ)θilogp(xθ)θjp(xθ)dx.

Dies ist das Originalpapier:

Jeffreys, H. (1946). Eine invariante Form für die vorherige Wahrscheinlichkeit bei Schätzproblemen. Proc. Royal Soc. of London, Series A, 186, 453–461.

Zen
quelle
1
Vielen Dank für das nette Schreiben. Es wäre schön, wenn Sie helfen können dies auch.
Kumara
Ja, hast du zu Recht gesagt. Ich muss aus dieser "Abstraktionsfalle" herauskommen.
Kumara
@zen Sie verwenden die Taylor-Erweiterung des Logarithmus unter dem Integral. Warum ist das gültig?
Sus20200
1
Es scheint von entscheidender Bedeutung, dass Sie mit der symmetrisierten KL-Divergenz im Gegensatz zur Standard-KL-Divergenz beginnen. Der Wikipedia-Artikel erwähnt die symmetrisierte Version nicht und ist daher möglicherweise falsch. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Surgical Commander
11

Beweis für übliche (unsymmetrische) KL-Divergenz

Zens Antwort verwendet die symmetrisierte KL-Divergenz, aber das Ergebnis gilt auch für die übliche Form, da es für unendlich enge Verteilungen symmetrisch wird.

Hier ist ein Beweis für diskrete Verteilungen, die mit einem Skalar parametrisiert wurden (weil ich faul bin), aber für kontinuierliche Verteilungen oder einen Vektor von Parametern leicht umgeschrieben werden können:θ

D(pθ,pθ+dθ)=pθLogpθ-pθLogpθ+dθ .
Taylor-Erweiterung des letzten Terms: Unter der Annahme einiger Regelmäßigkeiten habe ich die beiden Ergebnisse verwendet:
=pθLogpθ-pθLogpθ= 0-dθpθddθLogpθ= 0 -12dθ2pθd2dθ2Logpθ=-pθ(ddθLogpθ)2 +O(dθ3)=12dθ2pθ(ddθLogpθ)2Fisher Informationen+O(dθ3).
:pθddθLogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2Logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ-(1pθdpθdθ)2]=d2pθdθ2-pθ(1pθdpθdθ)2=d2dθ2pθ= 0-pθ(ddθLogpθ)2.
Abhranil Das
quelle
4

Eine ähnliche Beziehung (für einen eindimensionalen Parameter) finden Sie in Gleichung (3) der folgenden Abhandlung

D. Guo (2009), Relative Entropie- und Score-Funktion: Neue Informations-Schätzungs-Beziehungen durch willkürliche additive Störung , in Proc. Internationales IEEE-Symposium für Informationstheorie , 814–818. ( stabiler Link ).

Die Autoren verweisen auf

S. Kullback, Informationstheorie und Statistik . New York: Dover, 1968.

für einen Beweis für dieses Ergebnis.

Primo Carnera
quelle
1
Eine multivariate Version von Gleichung (3) dieses Papiers ist im zitierten Kullback-Text auf den Seiten 27-28 belegt. Die Konstante scheint in der Frage des OP verschwunden zu sein. :)1/2
Kardinal