Nicht konjugiert vor

8

Kann jemand erklären, warum das Integral in der posterioren Dichte möglicherweise nicht "analytisch nachvollziehbar" ist, wenn der von uns gewählte Prior nicht konjugiert ist?


quelle
3
Betrachten Sie das Binomia-Modell: Es ist nicht möglich, einen analytischen Ausdruck für das Integral für jedes vorherige . π ( θ )01θx(1θ)nxπ(θ)dθπ(θ)
Zen
4
@Zen, das ist wahrscheinlich eine Erweiterung wert (nur ein wenig; Sie decken das zugrunde liegende Problem im Grunde recht gut ab), um eine Antwort zu erhalten.
Glen_b -State Monica
Du hast 100% Recht, @Glen_b, aber ich bin mir nicht sicher, wie wir das erklären sollen. Der Punkt ist, dass wenn der hintere Teil zur selben Familie gehört, wir die Integration überhaupt nicht durchführen. Wir identifizieren nur den "Kernel" der Dichte. Es ist etwas, das klar wird, wenn wir es oft tun.
Zen
Keine Sorge @Zen, ich riskiere eine Antwort.
Glen_b -Reinstate Monica

Antworten:

13

Konjugation ist nett, weil es bedeutet, dass Sie, wenn Sie mit dem PDF im Prior umgehen können, in der Lage sein sollten, dasselbe mit dem Posterior zu tun (da sie dieselbe Form haben) - aber manchmal möchten Sie natürlich einen Prior, der das ist nicht konjugieren.

Wie kommt die Traktierbarkeit von Integralen in einer praktischen Bayes'schen Berechnung zustande?

Stellen Sie sich vor, wir möchten einen Rückschluss auf einen Parameter :θ

p(θ|x)p(x|θ)p(θ)

Dabei ist der erste Term rechts die Wahrscheinlichkeit und der zweite Term der Prior. Das Problem besteht im Wesentlichen darin, die Proportionalitätskonstante zu bewerten, die erforderlich ist, um eine Dichte auf der rechten Seite zu erhalten. und dann möchten Sie vielleicht in der Lage sein, verschiedene Dinge damit zu tun (z. B. zeichnen; zusammenfassende Statistiken finden - seinen Mittelwert oder seinen Modus oder einige Quantile; vielleicht sogar eine Stichprobe daraus). Auf jeden Fall wäre es nützlich, dieses Integral auf irgendeine Weise zu finden, und vielleicht ist es am natürlichsten und offensichtlichsten, es „algebraisch“ zu finden - das heißt, die übliche Trickkiste zur Bewertung von Integralen zu verwenden.

Normalerweise meinen wir mit "unlösbar" "analytisch unlösbar", aber manchmal wird es etwas lockerer verwendet. In gewissem Sinne sind "die meisten" Integrale für verschiedene Werte von "unlösbar" unlösbar (scrollen Sie nach unten zur Diskussion der Integrale).

Beispiel

Wie Zen selbst für dieses sehr einfache Beispiel eines Binomialmodells hervorhebt, gibt es keine Garantie dafür, dass Sie die Integration des Parameters für den Posterior algebraisch durchführen können.

Hier ist ein anderes Beispiel (eine vereinfachte Version von etwas, das ich gesehen habe):

Betrachten Sie einen Bayes'schen Posterior für die Varianz einer Normalverteilung mit bekanntem Mittelwert . Der konjugierte Prior ist inverses Gamma, aber was ist, wenn wir einen logarithmischen Prior wollen? μσ2μ

Dann hätten wir effektiv ein Integral, dessen Integrand von der Form ist

p(σ2|μ,y)p(y|μ,σ2)p(σ2)

wobei wiederum der erste Term rechts vom die Wahrscheinlichkeit und der zweite der Prior ist.

Diese Wahrscheinlichkeit hat folgende Form:

f(σ2;α,β)=βαΓ(α)(σ2)α1exp(βσ2)

Dabei sind und einfache Funktionen der Daten, , die Stichprobengröße, und , und der Prior hat die folgende Form:β y n μαβynμ

f(σ2;θ,τ)=1σ2τ2πe(lnσ2θ)22τ2

... und das Produkt davon ist überhaupt nicht algebraisch "schön" zu handhaben. Zum Beispiel kann Wolfram Alpha das Integral * nicht ausführen, und es ist wahrscheinlicher, dass so etwas in einer angemessenen Zeit herauskommt als ich.

xσ2xα2exp(βx(lnxθ)22τ2)(0,)

Diskussion einiger Ansätze zur analytischen Unlösbarkeit

Ohne die Tatsache, dass die Leute so oft dazu neigen, analytisch „nette“ Prioritäten zu wählen (insbesondere beim Unterrichten des Fachs, aber auch häufig bei echten Problemen), wäre dies ein Problem, das fast jedes Mal auftritt. Das heißt nicht, dass die Auswahl analytisch netter Prioritäten falsch ist - normalerweise haben wir nur einen vagen Sinn für unsere vorherigen Informationen (ich habe selten eine bestimmte vorherige Verteilung im Sinn, obwohl ich möglicherweise eine Vorstellung von möglichen oder wahrscheinlichen Werten habe -, die ich möglicherweise habe ein breites Gefühl dafür, wo ich den größten Teil der Wahrscheinlichkeit für meinen Prior haben möchte oder sehr grob, wo der Mittelwert zum Beispiel sein könnte - wenn ich nicht weiß, welche spezifische Funktionsform ich für meinen Prior und einen konjugierten Prior haben möchte die Informationen widerspiegeln, die ich in meinem vorherigen haben möchte, das kann oft eine vernünftige Wahl sein).

In praktischer Hinsicht ist es jedoch immer noch möglich, dieses Problem auf verschiedene Weise zu lösen. Wir können zum Beispiel den posterioren Bereich mit unterschiedlichen Genauigkeitsgraden approximieren. Hier einige Beispiele (keineswegs erschöpfend): (i) durch Annäherung an das gewünschte Prior auf eine beliebige Anzahl von Wegen - möglicherweise durch eine Mischung aus konjugierten oder auf andere Weise handhabbaren Priors -, die eine entsprechende Mischung für den posterioren ergibt, oder (ii) durch geeignete numerische Integration (die im univariaten Fall überraschend gut funktionieren kann) oder (iii) wir können aus dieser Verteilung simulieren, ohne dieses Integral zu kennen - möglicherweise durch Ablehnungsabtastung oder über eine Markov-Kette-Monte-Carlo vom Typ Metropolis-Hastings Algorithmus, solange wir eine geeignete Begrenzungsfunktion bzw. Approximante haben).

In der Vergangenheit umfassten gängige Ansätze für diese Probleme tendenziell die numerische Integration (oder die Monte-Carlo-Integration in höheren Dimensionen) und die Laplace-Approximation . Tatsächlich werden diese immer noch bei vielen Problemen verwendet, aber wir haben viele andere Tools.

Angesichts der Tatsache, dass heutzutage so viel Bayes'sche Arbeit mit verschiedenen Versionen von MCMC und verwandten Stichprobenverfahren geleistet wird, ist die analytische Traktierbarkeit viel weniger ein Problem als früher, selbst bei Problemen mit einer großen Anzahl von Parametern - ich habe alle drei gesehen die oben erwähnten Ansätze, die in diesem Zusammenhang verwendet wurden; Dies bedeutet, dass wir so gut wie frei wählen können, welchen Prior wir möchten, basierend darauf, wie gut er unser Vorwissen widerspiegelt oder ob er die Inferenz regulieren kann - aufgrund seiner Eignung für unsere Inferenz und nicht aufgrund der einfachen algebraischen Manipulation. Sie sehen zum Beispiel Andrew Gelman, der die Verwendung von Halb-Cauchy- und Halb-t- Priors für Varianzparameter in hierarchischen Modellen befürwortet , undschwach informative Cauchy-Prioritäten in der logistischen Regression (in diesem Artikel wird jedoch kein MCMC verwendet, sondern eine ungefähre Inferenz über EM in Verbindung mit den üblichen iterativ neu gewichteten kleinsten Quadraten für die logistische Regression erzielt).

Glen_b -Reinstate Monica
quelle