Nach langem Durchforsten von Cross Validated fühle ich mich immer noch nicht näher daran, die KL-Divergenz außerhalb des Bereichs der Informationstheorie zu verstehen. Es ist ziemlich seltsam, wenn jemand mit einem mathematischen Hintergrund die Erklärung der Informationstheorie viel leichter versteht.
Um mein Verständnis vor dem Hintergrund der Informationstheorie zu skizzieren: Wenn wir eine Zufallsvariable mit einer endlichen Anzahl von Ergebnissen haben, gibt es eine optimale Kodierung, die es uns ermöglicht, das Ergebnis mit durchschnittlich der kürzesten Nachricht an einen anderen zu kommunizieren (ich finde dies am einfachsten) Bild in Bit ausgedrückt). Die erwartete Länge der Nachricht, die zur Übermittlung des Ergebnisses benötigt wird, ist gegeben durch wenn die optimale Codierung verwendet wird. Wenn Sie eine suboptimale Codierung verwenden, gibt die KL-Divergenz im Durchschnitt an, wie lange unsere Nachricht dauern würde.
Diese Erklärung gefällt mir, weil sie sich ganz intuitiv mit der Asymmetrie der KL-Divergenz befasst. Wenn wir zwei verschiedene Systeme haben, dh zwei geladene Münzen, die unterschiedlich geladen sind, haben sie unterschiedliche optimale Kodierungen. Ich bin nicht instinktiv der Meinung, dass die Codierung des zweiten Systems für das erste "genauso schlecht" ist wie die Codierung des ersten Systems für das zweite. Ohne den Gedankenprozess durchzugehen, wie ich mich selbst überzeugt habe, bin ich jetzt ziemlich glücklich, dass gibt Ihnen diese "zusätzliche erwartete Nachrichtenlänge", wenn Sie die Kodierung von für .
Die meisten Definitionen der KL-Divergenz, einschließlich Wikipedia, geben dann die Aussage ab (diskret, damit sie mit der informationstheoretischen Interpretation verglichen werden kann, die diskret weitaus besser funktioniert, da Bits diskret sind), dass wir zwei diskrete Wahrscheinlichkeiten haben Verteilungen, dann bietet KL einige Metrik "wie unterschiedlich sie sind". Ich habe noch keine einzige Erklärung dafür gefunden, wie diese beiden Konzepte überhaupt zusammenhängen. Ich scheine mich in seinem Buch über Inferenz zu erinnern, dass Dave Mackay darauf hinweist, dass Datenkomprimierung und Inferenz im Grunde genommen dasselbe sind, und ich vermute, dass meine Frage wirklich damit zusammenhängt.
Unabhängig davon, ob dies der Fall ist oder nicht, handelt es sich bei meiner Frage um Inferenzprobleme. (Dinge diskret halten), wenn wir zwei radioaktive Proben haben und wir wissen, dass eine von ihnen ein bestimmtes Material mit bekannter Radioaktivität ist (dies ist zweifelhafte Physik, aber tun wir so, als würde das Universum so funktionieren), und wir kennen daher die "wahre" Verteilung von radioaktiven Klicks sollten wir Poisson sein mit bekanntem messen sollten , ist es fair , eine empirische Verteilung für beiden Proben aufzubauen und ihre KL Divergenzen zu der bekannten Verteilung vergleichen und sagen , dass die untere wahrscheinlicher ist , dass das Material zu sein?
Wenn ich mich von der zweifelhaften Physik verabschiede und weiß, dass zwei Samples von derselben Verteilung stammen, aber nicht zufällig ausgewählt wurden, würde ein Vergleich ihrer KL-Abweichungen mit der bekannten globalen Verteilung ein Gefühl dafür vermitteln, wie "voreingenommen" die Samples sind , relativ zu dem einen oder anderen trotzdem?
Und schließlich, wenn die Antwort auf die vorherigen Fragen ja lautet, warum dann? Ist es möglich, diese Dinge allein aus statistischer Sicht zu verstehen, ohne irgendwelche (möglicherweise schwachen) Verbindungen zur Informationstheorie herzustellen?
Antworten:
Es gibt einen rein statistischen Ansatz für die Kullback-Leibler-Divergenz: Nehmen Sie eine Stichprobe iid aus einer unbekannten Verteilung p ⋆ und betrachten Sie die mögliche Anpassung einer Verteilungsfamilie, F = { p θX1,…,Xn p⋆ Die entsprechende Wahrscheinlichkeit ist definiert als
L ( θ | x 1 , ... , x n ) = n Π i = 1 p θ ( x i )
und dessen Logarithmus
ℓ ( θ | x 1 , ... , x n ) = n ∑ i = 1 log p θ ( x i )
Ein Buch, das Divergenz, Informationstheorie und statistische Inferenz verbindet, ist Rissanens Optimale Parameterschätzung , die ich hier besprochen habe .
quelle
Hier ist eine statistische Interpretation der Kullback-Leibler-Divergenz, die IJ Good lose entnommen wurde ( Beweiskraft: Eine kurze Übersicht , Bayesian Statistics 2, 1985).
Das Gewicht der Beweise.
Die Kullback-Leibler-Divergenz
quelle
Ich weiß nicht viel über Informationstheorie, aber so denke ich darüber: Wenn ich eine Person der Informationstheorie sagen höre, "Länge der Nachricht", sagt mein Gehirn "Überraschung". Die Überraschung ist 1.) zufällig und 2.) subjektiv.
Anstatt darüber nachzudenken, "wie unterschiedlich sie sind", denke ich an die "Zunahme der erwarteten Überraschung durch die Verwendung der falschen Verteilung". Dies ist alles aus Eigenschaften des Logarithmus.
Bearbeiten
Edit 2: looks like I'm not the only one who thinks of this as "surprise." From here:
quelle