Kann jemand beweist die folgende Verbindung zwischen Fisher Informationen Metrik und der relativen Entropie (oder KL Divergenz) in eine rein mathematischen rigorosen Art und Weise?
wobei , g_ {i, j} = \ int \ partial_i (\ log p (x; a)) \ partial_j (\ log p (x; a)) ~ p (x; a) ~ dx und g_ {i, j} \, da ^ i \, da ^ j: = \ sum_ {i, j} g_ {i, j} \, da ^ i \, da ^ j ist die Einstein-Summationskonvention.
Ich fand das oben in dem netten Blog von John Baez, wo Vasileios Anagnostopoulos in den Kommentaren darüber sagt.
Antworten:
1946 stellte der Geophysiker und Bayes-Statistiker Harold Jeffreys die heutige Kullback-Leibler-Divergenz vor und entdeckte, dass für zwei Distributionen, die "unendlich nah" sind (hoffen wir, dass die Math SE-Leute das nicht sehen ;-), wir schreiben können ihre Kullback-Leibler-Divergenz als quadratische Form, deren Koeffizienten durch die Elemente der Fisher-Informationsmatrix gegeben sind. Er interpretierte diese quadratische Form als Element der Länge einer Riemannschen Mannigfaltigkeit, wobei die Fisher-Information die Rolle der Riemannschen Metrik spielte. Aus dieser Geometrisierung des statistischen Modells hat er Jeffreys Prior als das Maß abgeleitet, das auf natürliche Weise durch die Riemannsche Metrik induziert wird, und dieses Maß kann als eine an sich gleichmäßige Verteilung auf der Mannigfaltigkeit interpretiert werden, obwohl es im Allgemeinen kein endliches Maß ist.
Um einen strengen Beweis zu erstellen, müssen Sie alle Regelmäßigkeitsbedingungen herausfinden und auf die Reihenfolge der Fehlerausdrücke in den Taylor-Erweiterungen achten. Hier ist eine kurze Skizze des Arguments.
Die symmetrisierte Kullback-Leibler-Divergenz zwischen zwei Dichten und ist definiert alsf G
Wenn wir eine Familie von Dichten haben, die durch , dannθ = ( θ1, … , Θk)
Dies ist das Originalpapier:
Jeffreys, H. (1946). Eine invariante Form für die vorherige Wahrscheinlichkeit bei Schätzproblemen. Proc. Royal Soc. of London, Series A, 186, 453–461.
quelle
Beweis für übliche (unsymmetrische) KL-Divergenz
Zens Antwort verwendet die symmetrisierte KL-Divergenz, aber das Ergebnis gilt auch für die übliche Form, da es für unendlich enge Verteilungen symmetrisch wird.
Hier ist ein Beweis für diskrete Verteilungen, die mit einem Skalar parametrisiert wurden (weil ich faul bin), aber für kontinuierliche Verteilungen oder einen Vektor von Parametern leicht umgeschrieben werden können:θ
quelle
Eine ähnliche Beziehung (für einen eindimensionalen Parameter) finden Sie in Gleichung (3) der folgenden Abhandlung
Die Autoren verweisen auf
für einen Beweis für dieses Ergebnis.
quelle