Wie kann ein unsachgemäßer Vorversuch zu einer korrekten posterioren Verteilung führen?
22
Wir wissen, dass im Falle einer ordnungsgemäßen vorherigen Verteilung,
P(θ∣X)=P(X∣θ)P(θ)P(X)
∝P(X∣θ)P(θ) .
Die übliche Rechtfertigung für diesen Schritt ist, dass die Randverteilung von X , P(X) Bezug auf ; konstant θist und daher ignoriert werden kann, wenn die hintere Verteilung abgeleitet wird.
Woher wissen Sie jedoch, dass die posteriore Verteilung tatsächlich vorhanden ist, wenn ein falscher Prior vorliegt? In diesem scheinbar zirkulären Argument scheint etwas zu fehlen. Mit anderen Worten, wenn ich annehme, dass der hintere Teil existiert, verstehe ich die Mechanismen, wie der hintere Teil abgeleitet werden kann, aber ich vermisse anscheinend die theoretische Rechtfertigung dafür, warum er überhaupt existiert.
PS: Ich erkenne auch, dass es Fälle gibt, in denen ein unangemessener Vorlauf zu einem unangemessenen Nachlauf führt.
Wir akzeptieren im Allgemeinen Posterioren von nicht korrekten Prioren wenn
π ( X ∣ θ ) π ( θ )π(θ)
existiert und ist eine gültige Wahrscheinlichkeitsverteilung (dh es wird genau zu 1 über den Träger integriert). Im Wesentlichen läuft dies aufπ(X)=∫π(X∣θ)π(θ)
π(X∣θ)π(θ)π(X)
endlich. Ist dies der Fall, so nennen wir diese Größe π ( θ ∣ X ) undakzeptierensie als die von uns gewünschte posteriore Verteilung. Es ist jedoch wichtig anzumerken, dass dies weder eine posteriore Verteilung noch eine bedingte Wahrscheinlichkeitsverteilung ist (diese beiden Begriffe sind hier synonym).π(X)=∫π(X∣θ)π(θ)dθπ(θ∣X)
Nun, ich sagte, wir akzeptieren "hintere" Verteilungen von unzulässigen Vorgesetzten, wenn man das oben Gesagte bedenkt. Der Grund, warum sie akzeptiert werden, liegt darin, dass das vorherige uns immer noch relative "Scores" für den Parameterraum liefert. dh das Verhältnis π ( θ 1 )π(θ) bringt Bedeutung in unsere Analyse. Die Bedeutung, die wir in einigen Fällen von unangemessenen Priors erhalten, ist möglicherweise bei richtigen Priors nicht verfügbar. Dies ist eine mögliche Rechtfertigung für ihre Verwendung. Siehe Sergios Antwort für eine eingehendere Untersuchung der praktischen Motivation für unangemessene Vorgesetzte.π(θ1)π(θ2)
Es ist erwähnenswert, dass diese Größe auch wünschenswerte theoretische Eigenschaften hat, Degroot & Schervish :π(θ∣X)
Unsachgemäße Prioritäten sind keine wahren Wahrscheinlichkeitsverteilungen, aber wenn wir dies so tun, berechnen wir Posteriorverteilungen, die den Posterioren entsprechen, die wir unter Verwendung geeigneter konjugierter Prioritäten mit Extremwerten der vorherigen Hyperparameter erhalten hätten.
Ich bin durch ein paar Dinge in Ihrer Antwort verwirrt. Sie sagen, dass wir Nachfolger akzeptieren, wenn das oben Genannte endlich ist. Bedeutet das, wenn dieses Integral nicht endlich ist, wird der hintere nicht endlich sein? Sie scheinen auch zu implizieren, dass wir in diesem Fall den Seitenzahn verwenden, aber es ist keine echte Verteilung - stimmt das? Gibt es nicht Fälle, in denen es sich um eine echte Verteilung handelt? Und was hat das Verhältnis der Prioren damit zu tun? Ich sehe die Verbindung nicht.
Ben Elizabeth Ward
@BenElizabethWard Wenn existiert, muss das Integral π ( X ) existieren (und somit endlich sein). Das Gegenteil trifft auch zu: Wenn π ( X ) nicht existiert (unendlich ist), dann existiert π ( θ ∣ X ) nicht. Wenn es existiert und eine gültige Wahrscheinlichkeitsverteilung ist, ist π ( θ ∣ X ) eine Wahrscheinlichkeitsverteilung. Es ist jedoch keine posteriore Verteilung für π ( θ ) mit der gegebenen Datenwahrscheinlichkeitπ(θ∣X)π(X)π(X)π(θ∣X)π(θ∣X)π(θ) . Der hintere Teil für diesen Prior existiert nicht. Wir akzeptieren π ( θ ∣ X ) in unserer Analyse, weil es sich um eine Näherung handelt. π(X∣θ)π(θ∣X)
1
@BenElizabethWard Das Verhältnis wurde verwendet, um zu demonstrieren, dass der Prior noch nützliche Informationen enthält, die möglicherweise nicht in einen richtigen Prior geladen werden können. Ich werde meine Antwort bearbeiten, um dies einzuschließen.
2
@jsk ist keine Wahrscheinlichkeitsverteilung, aber die Definition der posterioren Verteilung erfordert, dass π ( θ ) eine Wahrscheinlichkeitsverteilung ist. Es ist also ein Betrug, π ( θ ∣ X ) eine posterioren Verteilung zu nennen, wenn es eine Wahrscheinlichkeitsverteilung ist. Degroot & Schervish sagen: "... wir berechnen posteriore Verteilungen, die ...", mit denen sie davon ausgehen, dass Sie zugestimmt haben, "so zu tun, als wären sie [die unzulässigen Priors] [richtige Priors]", wie weiter oben im Zitat angegeben. π(θ)π(θ)π(θ∣X)
1
Möchten Sie Ihre Antwort aktualisieren, damit zukünftige Leser diesen Kommentaraustausch nicht durchlesen müssen?
Jsk
9
Es gibt eine "theoretische" und eine "pragmatische" Antwort.
Unter einem theoretischen Gesichtspunkt existiert der hintere Teil nicht, wenn ein Prior unangemessen ist (sehen Sie sich Matthews Antwort für eine fundiertere Aussage an), sondern kann durch eine einschränkende Form angenähert werden.
Umfassen die Daten eine bedingte Stichprobe aus der Bernoulli - Verteilung mit dem Parameter und hat θ die Beta - Verteilung mit den Parametern α und β , so ist die hintere Verteilung von θ die Beta - Verteilung mit den Parametern α + s , β + n - s ( n Beobachtungen, s Erfolge) und sein Mittelwert ist ( α + s ) / ( α + β + n )θθαβθα+s,β+n−sns(α+s)/(α+β+n) . Wenn wir die falsche (und unwirkliche) Beta-Verteilung vor früheren Hypeparametern und geben vor, dass π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 , wir erhalten eine richtige posteriore Proportionalität zu θ s - 1 ( 1 - θ ) n - s - 1 , dh das pdf des Beta Verteilung mit Parametern s bis auf einen konstanten Faktor. Dies ist die limitierende Form des Seitenzahns für ein Beta vor den Parametern α → 0 undα=β=0π(θ)∝θ−1(1−θ)−1θs−1(1−θ)n−s−1s und n−sα→0 (Degroot & Schervish, Beispiel 7.3.13).β→0
In einem normalen Modell mit Mittelwert , bekannten Varianz & sgr; 2 und einer N ( μ 0 , τ 2 0 ) vor Verteilung für θ , wenn der Stand der Präzision, 1 / τ 2 0 , ist klein gegenüber der Datengenauigkeit, n / σ 2 , dann ist die hintere Verteilung ungefähr so, als ob τ 2 0 = ∞ :
p ( θ ∣ x ) ≈ N ( θ ∣ ˉθσ2N(μ0,τ20)θ1/τ20n/σ2τ20=∞
dh die posteriore Verteilung ist ungefähr diejenige, die sich aus der Annahme ergeben würde, dass p ( θ ) proportional zu einer Konstanten für θ ∈ ( - ∞ , ∞ ) ist , eine Verteilung, die nicht unbedingt möglich ist, sondern die einschränkende Form des posterioren wenn sich τ 2 0 nähert
Unter einem "pragmatischen" Gesichtspunkt ist wenn
p ( x ≤ & thgr ; ) = 0 ist, was auch immer p ( & thgr; ) ist, wenn also p ( x ≤ & thgr ; ) ≤ 0 in
( a , b ) , dann ∫ ∞ - ∞ p ( x ∣ θ ) p ( θp(x∣θ)p(θ)=0p(x∣θ)=0p(θ)p(x∣θ)≠0(a,b)∫∞−∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ(a,b)f(x)=k,x∈(−∞,∞)f(x)=kx−1,x∈(0,∞)(a,b)θU(−∞,∞)(a,b)θ∼U(a,b),
i.e. p(x∣θ)p(θ)=p(x∣θ)k∝p(x∣θ). For a
concrete example, this is what happens in Stan: if no
prior is specified for a parameter, it is implicitly given a uniform prior on
its support and this is handled as a multiplication of the likelihood by a constant.
Can you say more about why it does not exist from a theoretical point of view?
jsk
I couldn't expound better than Matthew in his answer and in his comments.
Sergio
In the pragmatic section, what is y? Also in that section, should some of the p(θ∣x) terms be the likelihood p(x∣θ)?
jsk
Thanks. I Think there might be one more mistake... You write P(θ)=kx−1, but the prior can't depend on x. Do you mean P(θ)=kθ−1?
jsk
Right! I've re-written that formulas as they are in Box & Tiao. I was trying to choose a homogeneous notation (e.g. Gelman uses y instead of x, DeGroot uses ξ(.) for priors and posteriors etc.) but I ended up in a mess... Thanks!
Sergio
2
However, in the case of an improper prior, how do you know that the
posterior distribution actually exists?
The posterior might not be proper either. If the prior is improper and the likelihood is flat (because there are no meaningful observations), then the posterior equals the prior and is also improper.
Usually you have some observations, and usually the likelihood is not flat, so the posterior is proper.
Es gibt eine "theoretische" und eine "pragmatische" Antwort.
Unter einem theoretischen Gesichtspunkt existiert der hintere Teil nicht, wenn ein Prior unangemessen ist (sehen Sie sich Matthews Antwort für eine fundiertere Aussage an), sondern kann durch eine einschränkende Form angenähert werden.
Umfassen die Daten eine bedingte Stichprobe aus der Bernoulli - Verteilung mit dem Parameter und hat θ die Beta - Verteilung mit den Parametern α und β , so ist die hintere Verteilung von θ die Beta - Verteilung mit den Parametern α + s , β + n - s ( n Beobachtungen, s Erfolge) und sein Mittelwert ist ( α + s ) / ( α + β + n )θ θ α β θ α+s,β+n−s n s (α+s)/(α+β+n) . Wenn wir die falsche (und unwirkliche) Beta-Verteilung vor früheren Hypeparametern und geben vor, dass π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 , wir erhalten eine richtige posteriore Proportionalität zu θ s - 1 ( 1 - θ ) n - s - 1 , dh das pdf des Beta Verteilung mit Parametern s bis auf einen konstanten Faktor. Dies ist die limitierende Form des Seitenzahns für ein Beta vor den Parametern α → 0 undα=β=0 π(θ)∝θ−1(1−θ)−1 θs−1(1−θ)n−s−1 s und n−s α→0 (Degroot & Schervish, Beispiel 7.3.13).β→0
In einem normalen Modell mit Mittelwert , bekannten Varianz & sgr; 2 und einer N ( μ 0 , τ 2 0 ) vor Verteilung für θ , wenn der Stand der Präzision, 1 / τ 2 0 , ist klein gegenüber der Datengenauigkeit, n / σ 2 , dann ist die hintere Verteilung ungefähr so, als ob τ 2 0 = ∞ : p ( θ ∣ x ) ≈ N ( θ ∣ ˉθ σ2 N(μ0,τ20) θ 1/τ20 n/σ2 τ20=∞
dh die posteriore Verteilung ist ungefähr diejenige, die sich aus der Annahme ergeben würde, dass p ( θ ) proportional zu einer Konstanten für θ ∈ ( - ∞ , ∞ ) ist , eine Verteilung, die nicht unbedingt möglich ist, sondern die einschränkende Form des posterioren wenn sich τ 2 0 nähert
Unter einem "pragmatischen" Gesichtspunkt ist wenn p ( x ≤ & thgr ; ) = 0 ist, was auch immer p ( & thgr; ) ist, wenn also p ( x ≤ & thgr ; ) ≤ 0 in ( a , b ) , dann ∫ ∞ - ∞ p ( x ∣ θ ) p ( θp(x∣θ)p(θ)=0 p(x∣θ)=0 p(θ) p(x∣θ)≠0 (a,b) ∫∞−∞p(x∣θ)p(θ)dθ=∫bap(x∣θ)p(θ)dθ (a,b) f(x)=k,x∈(−∞,∞) f(x)=kx−1,x∈(0,∞) (a,b) θ U(−∞,∞) (a,b) θ∼U(a,b) ,
i.e. p(x∣θ)p(θ)=p(x∣θ)k∝p(x∣θ) . For a
concrete example, this is what happens in Stan: if no
prior is specified for a parameter, it is implicitly given a uniform prior on
its support and this is handled as a multiplication of the likelihood by a constant.
quelle
The posterior might not be proper either. If the prior is improper and the likelihood is flat (because there are no meaningful observations), then the posterior equals the prior and is also improper.
Usually you have some observations, and usually the likelihood is not flat, so the posterior is proper.
quelle