Variationsinferenz, KL-Divergenz erfordert wahres

Nach meinem (sehr bescheidenen) Verständnis der Variationsinferenz versucht man, eine unbekannte Verteilung zu approximieren, $p$ indem man eine Verteilung $q$ , die Folgendes optimiert:

K L (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)}

$KL (p||q) = \sum\limits_{x} p(x)log \frac {p(x)}{q(x)}$

Immer wenn ich Zeit in das Verständnis von Variationsinferenzen investiere, treffe ich diese Formel und kann nicht anders, als das Gefühl zu haben, dass ich den Punkt verfehle. Es scheint, als müsste ich kennen $p$ , um berechnen zu können $KL(p||q)$ . Aber der springende Punkt war ich nicht diese Verteilung wusste $p$ .

Es ist genau dieser Punkt, der mich jedes Mal nervt, wenn ich versuche, etwas Variierendes zu lesen. Was vermisse ich?

EDIT :

Ich werde hier aufgrund der Antwort von @wij ein paar zusätzliche Kommentare hinzufügen. Ich werde versuchen, genauer zu sein.

In den Fällen, an denen ich interessiert bin, erscheint es durchaus vernünftig zu bedenken, dass Folgendes gilt:

p (θ | D) = \frac{p (D | θ) p (θ)}{p (D)} \propto p (D | θ) p (θ)

$p(\theta | D) = \frac{p(D|\theta)p(\theta)}{p(D)} \propto p(D|\theta)p(\theta)$

In diesem Fall könnte ich wissen, wie proportional aussehen sollte, da ich eine Modellauswahl für und . Würde ich dann richtig sagen, dass ich dann eine Familienverteilung [sagen wir Gauß] auswählen muss, so dass ich jetzt schätzen kann . Es fühlt sich so an, als würde ich in diesem Fall versuchen, einen Gaußschen Wert anzupassen, der nahe am nicht normalisierten $p$ $p(D|\theta)$ $p(\theta)$ $q$ $KL(p(\theta|D) || q)$ . Ist das richtig? $p(D|\theta)p(\theta)$

Wenn ja, gehe ich davon aus, dass mein posterior eine Normalverteilung ist, und ich versuche lediglich, wahrscheinliche Werte für diese Verteilung in Bezug auf die -Divergenz zu finden. $KL$

variational-bayes Vincent Warmerdam
quelle

Ich habe das Gefühl, dass Sie als ein völlig unbekanntes Objekt behandeln. Ich glaube nicht, dass dies der Fall ist. Das haben Sie wahrscheinlich verpasst. $p$

Nehmen wir an, wir beobachten (iid) und wollen auf wobei wir annehmen, dass und für durch spezifiziert sind das Model. Nach der Bayes-Regel $Y = \{y_i\}_{i=1}^n$ $p(x|Y)$ $p(y|x)$ $p(x)$ $x\in\mathbb{R}^d$

p (x | Y) = \frac{p (x)}{p (Y)} p (Y | x) = \frac{p (x)}{p (Y)} \prod_{i = 1}^{n} p (y_{i} | x) .

$p(x|Y) = \frac{p(x)}{p(Y)}p(Y|x) = \frac{p(x)}{p(Y)}\prod_{i=1}^n p(y_i|x).$

Die erste Beobachtung ist, dass wir etwas über die posteriore Verteilung wissen . Es ist wie oben angegeben. Normalerweise kennen wir den Normalisierer einfach nicht . Wenn die Wahrscheinlichkeit sehr kompliziert ist, haben wir am Ende eine komplizierte Verteilung . $p(x|Y)$ $p(Y)$ $p(y|x)$ $p(x|Y)$

Das zweite, was es möglich macht, Variationsinferenzen durchzuführen, ist, dass die Form, die annehmen kann, eingeschränkt ist. Ohne jede Einschränkung, wäre die in der Regel unlösbar ist. Typischerweise wird angenommen , dass in einer ausgewählten Teilmenge der Exponentialfamilie lebt. Dies könnte beispielsweise die Familie der vollständig faktorisierten Gaußschen Verteilungen sein, dh $q$ $\arg \min_q KL(p||q)$ $p$ $q$ . Es stellt sich heraus, dass, wenn dies Ihre Einschränkungsmenge ist, jede Komponente von durch gegeben ist $q \in \mathcal{Q} = \{\prod_{i=1}^d q_i(x_i) \mid \text{each } q_i \text{ is a one-dimensional Gaussian}\}$ $q$

q_{i} \propto \exp (E_{\prod_{j \neq i} q_{j}} \log p (x, Y)),

$q_i \propto \exp( \mathbb{E}_{\prod_{j\neq i} q_j} \log p(x, Y) ),$

wobei Die genaue Formel spielt keine Rolle. Der Punkt ist, dass das ungefähre kann, indem man sich auf die Kenntnis des wahren und die Annahme der Form stützt , die das ungefähre annehmen sollte. $p(x, Y) = p(x) \prod_{i=1}^n p(y_i|x).$ $q$ $p$ $q$

Aktualisieren

Im Folgenden wird der aktualisierte Teil der Frage beantwortet. Ich habe gerade festgestellt, dass ich über nachgedacht habe . Ich werde immer für die wahre Menge und für eine ungefähre Menge verwenden . In Variationsinferenz oder Variationsbayes ist gegeben durch $KL(q||p(x|Y))$ $p$ $q$ $q$

q = \arg min_{q \in Q} K L (q | | p (x | Y)) .

$q = \arg \min_{q \in \mathcal{Q}} KL(q\, ||\, p(x|Y)).$

Mit der oben festgelegten Einschränkungsmenge ist die Lösung die zuvor angegebene. Nun, wenn Sie darüber nachdenken $\mathcal{Q}$

q = \arg min_{q \in Q} K L (p (x | Y) | | q),

$q = \arg \min_{q \in \mathcal{Q}} KL( p(x|Y) \, || \, q),$

Wenn als Teilmenge der Exponentialfamilie definiert ist, wird diese Folgerung als Expectation Propagation (EP) bezeichnet. Die Lösung für in diesem Fall diejenige, bei der ihre Momente mit denen von übereinstimmen . $\mathcal{Q}$ $q$ $p(x|Y)$

$q$

wij
quelle

Ich kann damit nicht streiten. Ich denke, die meisten Erklärungen einschließlich meines eigenen Glanzes darüber.

Peadar Coyle

Variationsinferenz, KL-Divergenz erfordert wahres

Antworten: