Warum konzentriert sich der Bayes'sche Posterior um den Minimierer der KL-Divergenz?

9

Betrachten Sie die Bayes - posterior θX . Asymptotisch tritt ihr Maximum bei der Schätzung MLE θ , der nur die Wahrscheinlichkeit maximiert argmin θθ^argminθfθ(X) .

Alle diese Konzepte - Bayesianische Prioritäten, die die Wahrscheinlichkeit maximieren - klingen super prinzipiell und überhaupt nicht willkürlich. Es ist kein Log in Sicht.

MLE minimiert jedoch die KL-Divergenz zwischen der reellen Verteilung f~ und fθ(x) , dh es minimiert

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah - woher kommen diese Protokolle? Warum gerade KL-Divergenz?

Warum entspricht beispielsweise die Minimierung einer anderen Divergenz nicht den übergeordneten und motivierten Konzepten der Bayes'schen Posterioren und der oben genannten Maximierung der Wahrscheinlichkeit?

KL-Divergenz und / oder Protokolle scheinen in diesem Zusammenhang etwas Besonderes zu sein. Natürlich können wir unsere Hände in die Luft werfen und sagen, dass die Mathematik genau so ist. Aber ich vermute, dass es eine tiefere Intuition oder Verbindungen geben könnte, die aufgedeckt werden müssen.

Yatharth Agarwal
quelle
Sie können einige Ideen hier finden: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen
@kjetilbhalvorsen Der vorherige Titel klang wie ein Duplikat; Ich entschuldige mich. Ich habe eine Bearbeitung vorgenommen, und es sollte klar sein, warum diese Frage kein Duplikat ist.
Yatharth Agarwal
Die anderen Fragen lauten: "Was ist KL-Divergenz und warum ist sie nicht symmetrisch?" Die Antworten erklären das Konzept einer Divergenz und einige Informationen über KL. Im Gegensatz dazu wird in dieser Frage gefragt: "Warum konzentriert sich der Bayes'sche Posterior um den Minimierer der KL-Divergenz?" Die bloße Erklärung, wie Divergenzen nicht symmetrisch sein müssen, und die Erklärung von KL und die Angabe, dass KL mit MLE verbunden ist, geht hier nicht auf den Kern der Frage ein: Warum hat KL unter den vielen möglichen Divergenzen insbesondere eine besondere Verbindung zum Bayes'schen Seitenzahn. Macht das Sinn?
Yatharth Agarwal
Ja, es macht Sinn, aber es gibt immer noch ein Problem. Der hintere Teil hängt auch vom vorherigen ab, und wenn dieser stark ist, kann der hintere Teil ein Maximum von der Mle entfernt haben. Aber der Prior fehlt in Ihrer Frage.
kjetil b halvorsen
@kjetilbhalversen Ich meinte asymptotisch mit immer mehr IID-Proben und unter den (strengen) Bedingungen, unter denen der Prior asymptotisch keine Rolle spielt!
Yatharth Agarwal

Antworten:

5

Die Verwendung von Logarithmen in solchen Berechnungen stammt aus der Informationstheorie . Im besonderen Fall der KL-Divergenz kann das Maß als relative Information zweier Verteilungen interpretiert werden:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

wobei H(f~) die Entropie von f~ und H(f~,fθ) die Kreuzentropie von f~ und fθ . Die Entropie kann als Maß für die durchschnittliche Erzeugungsrate einer Dichte angesehen werden (die Kreuzentropie ist etwas komplizierter). Das Minimieren der KL-Divergenz für einen festen Wert f~ (wie in dem von Ihnen erwähnten Problem) entspricht dem Minimieren der Kreuzentropie, sodass diese Optimierung eine informationstheoretische Interpretation erhalten kann.

Es ist mir nicht möglich, in einem kurzen Beitrag einen guten Überblick über die Informationstheorie und die Eigenschaften von Informationsmaßnahmen zu geben. Ich würde jedoch empfehlen, einen Blick auf das Feld zu werfen, da es enge Verbindungen zur Statistik hat. Viele statistische Maße, die Integrale und Summen über Logarithmen von Dichten beinhalten, sind einfache Kombinationen von Standardinformationsmaßen, die in der Maßtheorie verwendet werden, und in solchen Fällen können sie hinsichtlich der zugrunde liegenden Informationsebenen in verschiedenen Dichten usw. interpretiert werden.

Ben - Monica wieder einsetzen
quelle
Ein Blick in die Informationstheorie klingt vielversprechend! Danke, dass du mich darauf hingewiesen hast.
Yatharth Agarwal
Natürlich können Sie nicht ein ganzes mathematisches Feld in einem StackExchange-Beitrag erklären, aber hätten Sie bestimmte Verweise auf die Felder, in denen das Protokoll angezeigt wird?
Yatharth Agarwal
Ich denke nur, dass dahinter eine so tiefe Intuition steckt, warum beispielsweise e in Eulers Gleichung steht und dass hier eine ähnliche Intuition lauert. Vielleicht lässt ein Produkt irgendwo den natürlichen Logarithmus entstehen. Ich bin mir nicht sicher.
Yatharth Agarwal
@ Yatharth Der Logarithmus entsteht hier aufgrund seiner zentralen Rolle bei der Definition der Shannon-Entropie. Was das "Warum" eines Logarithmus für ein Informationsmaß im Gegensatz zu einer anderen Funktion betrifft, werfen Sie einen Blick auf Satz 2 in Shannons "Mathematischer Theorie der Kommunikation". Auch Jaynes "Informationstheorie und statistische Mechanik" ist eine schöne Einführung.
Nate Pope