MAP ist eine Lösung für

10

Ich bin in einem der Online-Kurse auf diese Folien (Folie 16 und 17) gestoßen. Der Ausbilder versuchte zu erklären, wie die maximale posteriore Schätzung (MAP) tatsächlich die Lösung $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ , wobei $\theta^{*}$ der wahre Parameter ist.

Kann jemand bitte erklären, wie das folgt?

Bearbeiten: Folien hinzugefügt, falls der Link unterbrochen wird.

bayesian optimization loss-functions decision-theory map-estimation Honig Dachs
quelle

3

Ausgehend von den Folien, die Sie geteilt haben, scheint mir die Idee zu sein, zu erklären, wie die MAP-Schätzung verwendet werden kann, um verschiedene Eigenschaften des Seitenzahns wie Mittelwert, Modus und Median zu schätzen. Ich werde versuchen, dies im Kontext der General Bayesian Estimators zu erklären, wie sie in Stephen M. Kays Buch Fundamentals of Statistical Signal Processing vorgestellt werden .

$\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ $C(e)=1$

$e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

$\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

Abhängig davon, welches wir wählen, gibt uns der Schätzer nun eine andere Eigenschaft des Seitenzahns. Wenn wir zum Beispiel den ersten Fall wählen, , ist das Minimieren von für der Mittelwert. Da Ihre Frage sich auf die Indikatorfunktion , werde ich auf das oben erwähnte dritte Risiko eingehen (das, wenn Sie für nachdenken, gleichwertig ist zur Verwendung des Indikators). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

Für Fall 3 oben:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

was für minimiert wird, wenn dem Modus des Seitenzahns entspricht. $\delta \rightarrow 0$ $\hat{\theta}$

idnavid
quelle

2

Vielen Dank für die wunderbare Erklärung. Zukünftige Leser können darüber auch in einem ähnlichen Lehrbuch lesen: Kapitel 5 von Machine_Learning a Probabilistic Perspective von Kevin Murphy

Honeybadger

Könnten Sie die Details dieses einschränkenden Arguments in angeben ? Meinen Sie die Grenze des Verfahrens, wenn auf Null geht, oder die Grenze des posterioren Verlusts?

δ

$\delta$

δ

$\delta$

Xi'an

Ich beziehe mich auf die Grenze der Erwartung .

E [C (e)]

$E[C(e)]$

idnavid

10

In dem speziellen Fall ist der Parameterraum endlich oder zählbar unendlich der mit dem Indikatorverlust verbundene hintere Verlust ist gleich der Wahrscheinlichkeit, falsch zu sein und es wird minimiert, wenn die hintere Wahrscheinlichkeit der Richtigkeit maximiert ist. Dies bedeutet, dass der Modus der posterioren Verteilung oder des MAP ist. $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

Diese Assoziation von MAP und Verlust ist jedoch insofern ein "Volkssatz", als sie in den meisten Einstellungen falsch ist, dh nicht für kontinuierliche Parameterräume gilt, in denen für alle und es widerspricht weiter den Ergebnissen von Druihlet und Marin (BA, 2007), die darauf hinweisen, dass der MAP letztendlich von der Wahl des dominierenden Maßes abhängt. (Auch wenn die Lebesgue-Kennzahl implizit als Standard ausgewählt ist.) $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Zum Beispiel haben Evans und Jang 2011 ein arXiv-Papier veröffentlicht, in dem sie den Zusammenhang zwischen MAP, Schätzern für die geringste relative Überraschung (oder maximale Profilwahrscheinlichkeit) und Verlustfunktionen erörtern. Der Kern der Sache ist, dass weder MAP-Schätzer noch MLEs wirklich durch einen entscheidungstheoretischen Ansatz gerechtfertigt sind, zumindest in einem kontinuierlichen Parameterraum. Und dass das dominierende Maß [willkürlich] für den Parameterraum den Wert des MAP beeinflusst, wie Druihlet und Marin 2007 gezeigt haben. Sie beginnen im endlichen Fall mit der Verlustfunktion

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ wobei sie die Schätzung der Transformation Ψ (θ) durch d betrachten, umgekehrt gewichtet durch den Rand vor dieser Transformation. Im Sonderfall der Identitätstransformation führt diese Verlustfunktion zum MLE als Bayes-Schätzer. Im allgemeinen Fall ist der Bayes-Schätzer der Maximum Profile Likelihood Estimator (LRSE). Diese Verlustfunktion verallgemeinert sich jedoch nicht auf zählbar unendliche (und offensichtlich kontinuierliche) Parameterräume, und in solchen Einstellungen können die Autoren nur LRSEs als Grenzen für Bayes-Verfahren bereitstellen. Die im zählbaren Fall angenommene Verlustfunktion ist zum Beispiel

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ wobei die Grenze auf Null abfällt. Im kontinuierlichen Fall funktioniert der Indikator nicht mehr, daher haben die Autoren die Wahl getroffen, den Raum Ψ (Θ) durch eine bestimmte Wahl einer Partition von Kugeln zu diskretisieren, deren Durchmesser λ gegen Null geht. Im Geiste von Druihlet und Marin hängt diese Wahl von einer Metrik (und weiteren Regelmäßigkeitsbedingungen) ab. Darüber hinaus hängt die LRSE selbst von der für die Dichten gewählten Version ab (wenn nicht von dem dominierenden Maß), es sei denn, eine legt überall die Bayes-Gleichheit überall fest, wenn und

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ im Geiste unseres Savage-Dickey-Paradoxonpapiers .

Robert Bassett und Julio Deride haben 2016 einen Artikel über die Position von MAPs innerhalb der Bayes'schen Entscheidungstheorie verfasst.

"... wir liefern ein Gegenbeispiel zu der allgemein akzeptierten Vorstellung von MAP-Schätzern als Grenze für Bayes-Schätzer mit 0-1-Verlust."

Die Autoren erwähnen mein Buch The Bayesian Choice , in dem diese Eigenschaft ohne weitere Vorsichtsmaßnahmen angegeben ist, und ich stimme voll und ganz zu, diesbezüglich nachlässig zu sein! Die Schwierigkeit besteht darin, dass die Grenze der Maximierer nicht unbedingt die Maximierung der Grenze ist. Das Papier enthält ein Beispiel zu diesem Zweck mit einem Prior wie oben, das einer Stichprobenverteilung zugeordnet ist, die nicht vom Parameter abhängt. Die darin vorgeschlagenen ausreichenden Bedingungen sind, dass die hintere Dichte mit ziemlicher Sicherheit richtig oder quasikonkav ist.

Siehe auch eine alternative Charakterisierung von MAP-Schätzern durch Burger und Lucka als geeignete Bayes-Schätzer unter einer anderen Art von Verlustfunktion , wenn auch einer eher künstlichen. Die Autoren dieses arXived-Papiers beginnen mit einer Distanz, die auf dem Prior basiert. wird als Bregman-Abstand bezeichnet, der je nach Prior der quadratische oder der Entropie-Abstand sein kann. Definieren einer Verlustfunktion, die eine Mischung aus diesem Bregman-Abstand und dem quadratischen Abstand

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ erzeugt den MAP als Bayes-Schätzer. Man mag sich immer noch über das dominierende Maß wundern, aber sowohl die Verlustfunktion als auch der resultierende Schätzer hängen eindeutig von der Wahl des dominierenden Maßes ab… (Der Verlust hängt vom Prior ab, aber dies ist an sich kein Nachteil.)

Xi'an
quelle

1

Ich werde die Zusammenfassung des zu diesem Problem erwähnten Textes in Kapitel 5, Bayesianische Statistik, Maschinelles Lernen: Eine probabilistische Perspektive - von Murphy geben .

Nehmen wir an, wir haben einige Daten beobachtet und möchten die posteriore Verteilung der Parameter kommentieren . Nun hat die Punktschätzung des Modus dieser posterioren Verteilung, die allgemein als MAP bekannt ist, bestimmte Nachteile. $X$ $p(\theta|X)$

Im Gegensatz zum Mittelwert oder Median ist dies ein „untypischer“ Punkt in dem Sinne, dass bei der Schätzung nicht alle anderen Punkte berücksichtigt werden. Bei der Schätzung des Mittelwerts / Medians berücksichtigen wir alle anderen Punkte.

Wie erwartet repräsentiert der MAP (und im weiteren Sinne der MLE) in stark verzerrten posterioren Verteilungen nicht wirklich den tatsächlich posterioren.

Wie fassen wir einen Posterior mit einer Punktschätzung wie Mittelwert / Median / Modus zusammen?

Hier verwenden die Menschen die Entscheidungstheorie - im Wesentlichen eine Verlustfunktion die der Verlust ist, den man erleidet, wenn die Wahrheit und unsere Schätzung ist. Wir können eine Vielzahl von Verlustfunktionen auswählen. Unser Ziel ist es, den erwarteten Wert der Verlustfunktion zu minimieren. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Wenn die Verlustfunktion auf , eine Indikatorfunktion für alle Zeiten, in denen wir NICHT KÖNNEN Schätzen Sie die Wahrheit und minimieren Sie dann den erwarteten Wert der Verlustfunktion wrt Dies entspricht der Maximierung dieser Funktion wrt . Daraus lässt sich intuitiv ableiten, dass der Posterior-Modus den erwarteten Wert der Verlustfunktion minimiert. Die Details dieser Berechnung sind in der obigen Antwort zu sehen . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

Honig Dachs
quelle

MAP ist eine Lösung für

Antworten: