Ich vergleiche zwei Verteilungen mit der KL-Divergenz, die mir eine nicht standardisierte Zahl zurückgibt, die nach dem, was ich über diese Kennzahl gelesen habe, die Informationsmenge ist, die erforderlich ist, um eine Hypothese in die andere umzuwandeln. Ich habe zwei Fragen:
a) Gibt es eine Möglichkeit, eine KL-Divergenz so zu quantifizieren, dass sie aussagekräftiger interpretiert wird, z. B. wie eine Effektgröße oder ein R ^ 2? Jede Form von Standardisierung?
b) In R kann bei Verwendung von KLdiv (Flexmix-Paket) der 'esp'-Wert (Standard esp = 1e-4) festgelegt werden, der alle Punkte kleiner als esp auf einen Standard setzt, um numerische Stabilität zu gewährleisten. Ich habe mit verschiedenen esp-Werten gespielt und für meinen Datensatz erhalte ich eine zunehmend größere KL-Divergenz, je kleiner eine Zahl ist, die ich auswähle. Was ist los? Ich würde erwarten, dass die Ergebnisse umso zuverlässiger sind, je kleiner der esp ist, da sie mehr „reale Werte“ in die Statistik einfließen lassen. Nein? Ich muss das esp ändern, da es sonst die Statistik nicht berechnet sondern einfach als NA in der Ergebnistabelle auftaucht ...
quelle
KL hat eine tiefe Bedeutung, wenn Sie eine Reihe von Zahnersatzteilen als Mannigfaltigkeit innerhalb des Fischertensors visualisieren. Sie gibt den geodätischen Abstand zwischen zwei "nahen" Verteilungen an. Formal:
Die folgenden Zeilen erläutern detailliert, was mit diesen mathematischen Formeln gemeint ist.
Definition der Fisher-Metrik.
Betrachten wir eine parametrisierten Familie von Wahrscheinlichkeitsverteilungen (gegeben durch Dichten in R n ), wobei x eine Zufallsvariable ist und Theta ist ein Parameter in R p . Sie können alle wissen, dass die Fischerinformationsmatrix F = ( F i j ) istD=(f(x,θ)) Rn x Rp F=(Fij)
Mit dieser Notation ist eine Riemannsche Mannigfaltigkeit und F ( θ ) ist ein Riemannscher metrischer Tensor. (Das Interesse dieser Metrik wird durch den unteren Satz von Cramer Rao gegeben.)D F(θ)
Sie können sagen ... OK mathematische Abstraktion, aber wo ist KL?
Es ist keine mathematische Abstraktion, wenn , können Sie sich Ihre parametrisierte Dichte wirklich als Kurve vorstellen (anstelle einer Teilmenge eines Raums unendlicher Dimension) und F 11 ist mit der Krümmung dieser Kurve verbunden ... (siehe das Seminal) Artikel von Bradley Efron ( http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1 F11
und es ist bekannt, dass es die doppelte Kullback-Leibler-Divergenz ist:
If you want to learn more about that I suggest reading the paper from Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (I think there is also a book from Amari about riemannian geometry in statistic but I don't remember the name)
quelle
The KL(p,q) divergence between distributions p(.) and q(.) has an intuitive information theoretic interpretation which you may find useful.
Suppose we observe data x generated by some probability distribution p(.). A lower bound on the average codelength in bits required to state the data generated by p(.) is given by the entropy of p(.).
Now, since we don't know p(.) we choose another distribution, say, q(.) to encode (or describe, state) the data. The average codelength of data generated by p(.) and encoded using q(.) will necessarily be longer than if the true distribution p(.) was used for the coding. The KL divergence tells us about the inefficiencies of this alternative code. In other words, the KL divergence between p(.) and q(.) is the average number of extra bits required to encode data generated by p(.) using coding distribution q(.). The KL divergence is non-negative and equal to zero iff the actual data generating distribution is used to encode the data.
quelle
For part (b) of your question, you might be running into the problem that one of of your distributions has density in a region where the other does not.
This diverges if there exists ani where pi>0 and qi=0 .
The numerical epsilon in the R implementation "saves you" from this problem; but it means that the resulting value is dependent on this parameter (technically qi=0 is no required, just that qi is less than the numerical epsilon).
quelle