Warum werden in der Bayes'schen Folgerung einige Begriffe aus der posterioren Vorhersage gestrichen?

12

In Kevin Murphys Conjugate Bayesian-Analyse der Gaußschen Verteilung schreibt er, dass die posteriore prädiktive Verteilung ist

p(xD)=p(xθ)p(θD)dθ

Dabei ist die Daten, an die das Modell angepasst ist, und sind unsichtbare Daten. Was ich nicht verstehe ist, warum die Abhängigkeit von im ersten Term im Integral verschwindet. Mit den Grundregeln der Wahrscheinlichkeit hätte ich erwartet:DxD

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Frage: Warum verschwindet die Abhängigkeit von im Term ?D


Für das, was es wert ist, habe ich diese Art der Formulierung (Variablen in Bedingungen fallen lassen) an anderen Stellen gesehen. Zum Beispiel schreibt er in Ryan Adams Bayesian Online Changepoint Detection die hintere Vorhersage als

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

wo wieder, da , hätte ich erwartetD={xt,rt}

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

gwg
quelle

Antworten:

13

Dies basiert auf der Annahme, dass bei bedingt unabhängig von ist . Dies ist in vielen Fällen eine vernünftige Annahme, da lediglich angegeben wird, dass die Trainings- und Testdaten ( bzw. ) unabhängig voneinander aus demselben Satz unbekannter Parameter generiert werden . Unter dieser Unabhängigkeitsannahme ist p ( x | θ , D ) = p ( x | θ ) , und so fällt das aus der allgemeineren Form heraus, die Sie erwartet haben.xDθDxθp(x|θ,D)=p(x|θ)D

In Ihrem zweiten Beispiel scheint es, dass eine ähnliche Unabhängigkeitsannahme angewendet wird, aber jetzt (explizit) im Laufe der Zeit. Diese Annahmen können an anderer Stelle im Text explizit angegeben werden, oder sie können jedem implizit klar sein, der mit dem Kontext des Problems hinreichend vertraut ist (obwohl dies nicht unbedingt bedeutet, dass in Ihren speziellen Beispielen - mit denen ich nicht vertraut bin) - Die Autoren haben zu Recht diese Vertrautheit angenommen.

Ruben van Bergen
quelle
9

Es ist , weil x angenommen wird , unabhängig davon zu sein , D gegeben . Mit anderen Worten wird angenommen, dass alle Daten aus einer Normalverteilung mit den Parametern . Sobald unter Verwendung von Informationen aus berücksichtigt wird , gibt es keine Informationen mehr, die über einen neuen Datenpunkt . Daher ist .θθθDDxp(x|θ,D)=p(x|θ)

JP Trawinski
quelle