Warum konvergiert MAP zu MLE?

In Kevin Murphys "Maschinelles Lernen: Eine probabilistische Perspektive", Kapitel 3.2, demonstriert der Autor das Bayes'sche Konzeptlernen an einem Beispiel namens "Zahlenspiel": Nachdem wir Proben aus , wollen wir Wählen Sie eine Hypothese die die Regel, die die Stichproben generiert hat, am besten beschreibt. Zum Beispiel "gerade Zahlen" oder "Primzahlen". $N$ $\{1,...,100\}$ $h$

Die maximalen a-posteriori und maximalen Wahrscheinlichkeitsschätzungen sind definiert als:

{\hat{h}}_{M A P} = {\arg max}_{h} p (D | h) p (h) = {\arg max}_{h} [\log p (D | h) + \log p (h)],

$\hat h_\mathrm{MAP}={\arg\max}_h\ p(\mathcal{D}|h)p(h)={\arg\max}_h[\log p(\mathcal{D}|h)+\log p(h)],$

{\hat{h}}_{M L E} = {\arg max}_{h} p (D | h) = {\arg max}_{h} \log p (D | h),

$\hat h_\mathrm{MLE}={\arg\max}_h\ p(\mathcal{D}|h)={\arg\max}_h\log p(\mathcal{D}|h),$

wobei $p(h)$ die vorherigen Wahrscheinlichkeiten verschiedener Hypothesen darstellt und der hintere definiert ist als:

p (D | h) = [\frac{1}{| h |}]^{N},

$p(\mathcal{D}|h)=\Bigg[\frac{1}{|h|}\Bigg]^N,$

iff $\mathcal{D}\subset h$ , dh wie wahrscheinlich ist es, dass eine einheitliche Stichprobe mit Ersetzung aus der Hypothese $h$ set ergibt $\mathcal{D}$ . Intuitiv bedeutet dies, dass der hintere Teil für "kleinste" Hypothesen am höchsten ist. Zum Beispiel erklären Hypothesen "Potenzen von 2" Beobachtungen $\{2,4,8,16,64\}$ besser als "gerade Zahlen".

All dies ist klar. Ich bin jedoch verwirrt über den folgenden Satz (obwohl er intuitiv vollkommen sinnvoll ist):

Da der Wahrscheinlichkeitsterm exponentiell von abhängt und der vorherige konstant bleibt, wenn wir mehr und mehr Daten erhalten, konvergiert die MAP-Schätzung gegen die maximale Wahrscheinlichkeitsschätzung. $N$

Es ist wahr , dass die Wahrscheinlichkeit exponentiell abhängt , jedoch ist die potenzierte Zahl in dem Intervall und als , , so dass die Wahrscheinlichkeit , dass tatsächlich sollte verschwinden. $N$ $(0,1)$ $N \to \infty$ $x^N \to 0$

Warum konvergiert MAP in diesem Fall zu MLE?

self-study bayesian maximum-likelihood convergence Jan Kukacka
quelle

Dies ist eine Folge des Satzes von Bernstein - von Mises: nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf (ab Folie 9.) Auch: andrewgelman.com/2017/11/27/asymptotically-we- sind alle tot .

Jbowman

Danke für die Referenzen. Wie erklären sie jedoch dieses widersprüchliche Beispiel?

Jan Kukacka

Verwandte stats.stackexchange.com/questions/200982/…

Tim

Hier gibt es zwei Probleme: Erstens, warum konvergiert der MAP allgemein (aber nicht immer) zum MLE und das Problem der "verschwindenden Wahrscheinlichkeit".

In der ersten Ausgabe verweisen wir auf den Satz von Bernstein - von Mises. Das Wesentliche dabei ist, dass sich mit zunehmender Stichprobengröße die im Prior und in den Daten enthaltenen relativen Informationen zugunsten der Daten verschieben, sodass sich der Posterior stärker auf die Nur-Daten-Schätzung des MLE und den Peak konzentriert konvergiert tatsächlich zur MLE (mit der üblichen Einschränkung, dass bestimmte Annahmen erfüllt sein müssen). Eine kurze Übersicht finden Sie auf der Wikipedia-Seite .

Bei der zweiten Ausgabe tritt dies auf, weil Sie die hintere Dichte nicht normalisiert haben. Nach der Bayes-Regel:

P (h | D) = \frac{P (D | h) p (h)}{p (D)}

$P(h|D) = {P(D|h)p(h) \over p(D)}$

und obwohl als , wie Sie beobachten, auch . Wenn wir für etwas mehr Konkretheit zwei Hypothesen und annehmen , finden wir den posterioren durch: $P(D|h) \to 0$ $n \to \infty$ $P(D)$ $h_1$ $h_2$

P (h_{1} | D) = \frac{P (D | h_{1}) p (h_{1})}{P (D | h_{1}) p (h_{1}) + P (D | h_{2}) p (h_{2})}

$P(h_1|D) = {P(D|h_1)p(h_1) \over P(D|h_1)p(h_1) + P(D|h_2)p(h_2)}$

Sowohl der Zähler als auch der Nenner haben Terme, die auf die Potenz angehoben sind , also beide als , aber es sollte klar sein, dass die erforderliche Normalisierung das Problem behebt, das dies sonst verursachen würde. $N$ $\to 0$ $N \to \infty$

Jbowman
quelle

Warum konvergiert MAP zu MLE?

Antworten: