Betrachten Sie die Bayes - posterior . Asymptotisch tritt ihr Maximum bei der Schätzung MLE θ , der nur die Wahrscheinlichkeit maximiert argmin θ .
Alle diese Konzepte - Bayesianische Prioritäten, die die Wahrscheinlichkeit maximieren - klingen super prinzipiell und überhaupt nicht willkürlich. Es ist kein Log in Sicht.
MLE minimiert jedoch die KL-Divergenz zwischen der reellen Verteilung und , dh es minimiert
Woah - woher kommen diese Protokolle? Warum gerade KL-Divergenz?
Warum entspricht beispielsweise die Minimierung einer anderen Divergenz nicht den übergeordneten und motivierten Konzepten der Bayes'schen Posterioren und der oben genannten Maximierung der Wahrscheinlichkeit?
KL-Divergenz und / oder Protokolle scheinen in diesem Zusammenhang etwas Besonderes zu sein. Natürlich können wir unsere Hände in die Luft werfen und sagen, dass die Mathematik genau so ist. Aber ich vermute, dass es eine tiefere Intuition oder Verbindungen geben könnte, die aufgedeckt werden müssen.
quelle
Antworten:
Die Verwendung von Logarithmen in solchen Berechnungen stammt aus der Informationstheorie . Im besonderen Fall der KL-Divergenz kann das Maß als relative Information zweier Verteilungen interpretiert werden:
wobeiH(f~) die Entropie von f~ und H(f~,fθ) die Kreuzentropie von f~ und fθ . Die Entropie kann als Maß für die durchschnittliche Erzeugungsrate einer Dichte angesehen werden (die Kreuzentropie ist etwas komplizierter). Das Minimieren der KL-Divergenz für einen festen Wert f~ (wie in dem von Ihnen erwähnten Problem) entspricht dem Minimieren der Kreuzentropie, sodass diese Optimierung eine informationstheoretische Interpretation erhalten kann.
Es ist mir nicht möglich, in einem kurzen Beitrag einen guten Überblick über die Informationstheorie und die Eigenschaften von Informationsmaßnahmen zu geben. Ich würde jedoch empfehlen, einen Blick auf das Feld zu werfen, da es enge Verbindungen zur Statistik hat. Viele statistische Maße, die Integrale und Summen über Logarithmen von Dichten beinhalten, sind einfache Kombinationen von Standardinformationsmaßen, die in der Maßtheorie verwendet werden, und in solchen Fällen können sie hinsichtlich der zugrunde liegenden Informationsebenen in verschiedenen Dichten usw. interpretiert werden.
quelle