"Vergesslichkeit" des Prior in der Bayes'schen Umgebung?

Es ist bekannt, dass der Bayes'sche Prior "vergessen" wird , wenn Sie mehr Beweise haben (z. B. in Form eines größeren für iid-Beispiele), und der größte Teil der Schlussfolgerung wird durch die Beweise (oder die Wahrscheinlichkeit) beeinflusst. $n$ $n$

Es ist leicht, es für verschiedene spezielle Fälle zu sehen (wie Bernoulli mit Beta vor oder andere Arten von Beispielen) - aber es gibt eine Möglichkeit, es im allgemeinen Fall mit und einige frühere ? $x_1,\ldots,x_n \sim p(x|\mu)$ $p(\mu)$

EDIT: Ich vermute, dass es im allgemeinen Fall für keinen Prior gezeigt werden kann (zum Beispiel würde ein Punktmassenprior den Posterior eine Punktmasse halten). Aber vielleicht gibt es bestimmte Bedingungen, unter denen ein Prior vergessen wird.

Hier ist die Art von "Weg", über den ich nachdenke:

Angenommen, der Parameterraum ist , und und seien zwei Prioritäten, die eine Wahrscheinlichkeitsmasse ungleich Null auf ganz . Die beiden hinteren Berechnungen für jeden vorherigen Betrag betragen also: $\Theta$ $p(\theta)$ $q(\theta)$ $\Theta$

p (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) p (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) p(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) p(\theta) d\theta}$

und

q (θ | x_{1}, \dots, x_{n}) = \frac{\prod_{i} p (x_{i} | θ) q (θ)}{\int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}

$q(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) q(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) q(\theta) d\theta}$

Wenn Sie durch (die Posterioren) teilen , erhalten Sie: $p$ $q$

p (θ | x_{1}, \dots, x_{n}) / q (θ | x_{1}, \dots, x_{n}) = \frac{p (θ) \int_{θ} \prod_{i} p (x_{i} | θ) q (θ) d θ}{q (θ) \int_{θ} \prod_{i} p (x_{i} | θ) p (θ) d θ}

$p(\theta | x_1,\ldots,x_n)/q(\theta | x_1,\ldots,x_n) = \frac{p(\theta)\int_{\theta} \prod_i p(x_i | \theta) q(\theta)d \theta}{q(\theta)\int_{\theta} \prod_i p(x_i | \theta) p(\theta)d \theta}$

Jetzt möchte ich den obigen Begriff untersuchen, wenn zu . Idealerweise würde es für ein bestimmtes , das "Sinn macht" oder ein anderes nettes Verhalten, auf gehen , aber ich kann nicht herausfinden, wie ich dort etwas zeigen kann. $n$ $\infty$ $1$ $\theta$

bayesian prior bayesianOrFrequentist
quelle

Beachten Sie für einige Intuitionen, dass die Wahrscheinlichkeit mit der Stichprobengröße skaliert, während dies beim vorherigen nicht der Fall ist.

Makro

@ Macro, danke, ich hatte auch diese Intuition, aber ich konnte sie nicht weiter vorantreiben. Siehe meine Änderungen oben.

BayesianOrFrequentist

In den ersten Kapiteln von Ghosh und Ramamoorthis Lehrbuch Bayesian Nonparametrics werden die Dinge erläutert, über die Sie sprechen (zuerst in einer parametrischen, dann in einer nichtparametrischen Umgebung). Es ist über Springer kostenlos online verfügbar, wenn Sie sich an einer geeigneten Institution befinden. Es gibt mehrere Möglichkeiten, die mangelnde Abhängigkeit vom Prior asymptotisch zu formalisieren, aber natürlich gibt es einige Regelmäßigkeitsbedingungen.

Kerl

Beachten Sie, dass das hintere Verhältnis nur proportional zum vorherigen Verhältnis ist, sodass das Wahrscheinlichkeits- oder Evidenzverhältnis dies nicht wirklich beeinflusst.

Wahrscheinlichkeitslogik

Antworten:

Nur eine grobe, aber hoffentlich intuitive Antwort.

Betrachten Sie es aus der Sicht des Log-Space: wobei eine Konstante ist, die von den Daten, aber nicht vom Parameter abhängt, und bei der Ihre Wahrscheinlichkeiten iid-Beobachtungen annehmen. Konzentrieren Sie sich daher nur auf den Teil, der die Form Ihres Seitenzahns bestimmt, nämlich
$- \log P (θ | x_{1}, \dots, x_{n}) = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ) - C_{n}$ $-\log P(\theta|x_1, \ldots, x_n) = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta) - C_n$ $C_n>0$ $S_{n} = - \log P (θ) - \sum_{i = 1}^{n} \log P (x_{i} | θ)$ $S_n = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta)$
Es sei angenommen , dass es eine , so dass . Dies ist für diskrete Verteilungen sinnvoll. $D>0$ $-\log P(\theta) \leq D$
Da die Begriffe alle positiv sind, wird "wachsen" (ich überspringe hier die technischen Details). Der Beitrag des Prior ist jedoch durch . Daher nimmt der vom Prior gelieferte Anteil, der höchstens beträgt , mit jeder zusätzlichen Beobachtung monoton ab. $S_n$ $D$ $D/S_n$

Strenge Beweise müssen sich natürlich den technischen Details stellen (und sie können sehr schwierig sein), aber die obige Einstellung ist meiner Meinung nach der grundlegende Teil.

Pedro A. Ortega
quelle

Ich bin etwas verwirrt darüber, was die Aussagen des "Prior ist vergessen" und "der größte Teil der Schlussfolgerung wird durch die Beweise beeinflusst" bedeuten sollen. Ich nehme an, Sie meinen, wenn die Datenmenge zunimmt, nähern sich die (Sequenz-) Schätzer dem wahren Wert des Parameters an, unabhängig von unserem vorherigen.

Unter der Annahme einiger Regelmäßigkeitsbedingungen für die Form der posterioren Verteilung sind die Bayes-Schätzer konsistent und asymptotisch unvoreingenommen (siehe Gelman et al., Kapitel 4 ). Dies bedeutet, dass sich der Bayes-Schätzer mit zunehmender Stichprobengröße dem wahren Wert des Parameters nähert. Konsistenz bedeutet, dass der Bayes-Schätzer in der Wahrscheinlichkeit gegen den wahren Parameterwert konvergiert, und asymptotische bedeutet, dass unter der Annahme, dass der wahre Wert des Parameters ist, $\theta_0$

\frac{E [\hat{θ} | θ_{0}] - θ_{0}}{\sqrt{V a r (\hat{θ})}} \overset{p}{\to} 0

$\frac{E[\hat{\theta}|\theta_0]-\theta_0}{\sqrt{\mathrm{Var}(\hat{\theta})}}\overset{p}\rightarrow0$

Die Konvergenz hängt nicht von der spezifischen Form des Prior ab, sondern nur davon, dass die vom Prior erhaltene posteriore Verteilung und die Wahrscheinlichkeit die Regelmäßigkeitsbedingungen erfüllen.

Die wichtigste in Gelman et al. Erwähnte Regelmäßigkeitsbedingung ist, dass die Wahrscheinlichkeit eine kontinuierliche Funktion des Parameters ist und der wahre Wert des Parameters im Inneren des Parameterraums liegt. Wie Sie bereits bemerkt haben, muss der Posterior in einer offenen Nachbarschaft des wahren Werts des wahren Werts des Parameters ungleich Null sein. Normalerweise sollte Ihr Prior im gesamten Parameterraum ungleich Null sein.

Caburke
quelle

danke, sehr aufschlussreich. Ich hatte eigentlich auf ein Ergebnis gehofft, das sich nicht einmal auf den "wahren" Parameterwert beziehen würde. Nur zu zeigen, dass der hintere Teil, den Sie erhalten werden, technisch gesehen derselbe ist, unabhängig davon, mit welchem Prior Sie begonnen haben. Ich werde einige Änderungen vornehmen, um dies widerzuspiegeln.

BayesianOrFrequentist

@bayesianOrFrequentist Schauen Sie sich den sogenannten Bayes'schen zentralen Grenzwertsatz an .

Stéphane Laurent