Warum muss aus der posterioren Verteilung eine Stichprobe gezogen werden, wenn wir die posterioren Verteilung bereits kennen?

19

Mein Verständnis ist, dass bei Verwendung eines Bayes'schen Ansatzes zur Schätzung von Parameterwerten:

  • Die hintere Verteilung ist die Kombination der vorherigen Verteilung und der Wahrscheinlichkeitsverteilung.
  • Wir simulieren dies, indem wir eine Stichprobe aus der posterioren Verteilung generieren (z. B. mit einem Metropolis-Hasting-Algorithmus, um Werte zu generieren, und akzeptieren sie, wenn sie über einer bestimmten Wahrscheinlichkeitsschwelle liegen, zur posterioren Verteilung zu gehören).
  • Sobald wir diese Stichprobe erstellt haben, verwenden wir sie zur Annäherung an die hintere Verteilung und ähnliches wie den Mittelwert.

Aber ich habe das Gefühl, etwas falsch zu verstehen. Es hört sich so an, als hätten wir eine posteriore Verteilung und würden sie dann abtasten und diese Probe dann als Annäherung an die posteriore Verteilung verwenden. Aber wenn wir zunächst die posteriore Verteilung haben, warum müssen wir dann davon abtasten, um sie zu approximieren?

Dave
quelle

Antworten:

19

Diese Frage wurde wahrscheinlich schon in diesem Forum berücksichtigt.

Was genau meinen Sie, wenn Sie angeben, dass Sie die posteriore Verteilung haben? Eine Funktion von "hat" , dass ich weiß , ist auf die posterioren proportional, nämlich π ( θ | x ) α π ( θ ) × f ( x | θ ) etwa das vollständig künstliche Ziel π ( θ | x ) α exp { - | | θ - x | | 2 - | | θ + xθ

π(θ|x)π(θ)×f(x|θ)
sagt mir nicht, was ist
π(θ|x)exp{-||θ-x||2-||θ+x||4-||θ-2x||6},  x,θR18,
  1. die hintere Erwartung einer Funktion von , zB E [ h ( θ ) | x ] , posteriores Mittel, das bei Standardverlusten als Bayes'scher Schätzer fungiert;θE[h(θ)|x]
  2. die optimale Entscheidung unter einer willkürlichen Nutzfunktion, Entscheidung, die den erwarteten hinteren Verlust minimiert;
  3. ein Unsicherheitsbereich von 90% oder 95% für den Parameter (die Parameter), einen Teilvektor des Parameters (der Parameter) oder eine Funktion des Parameters (der Parameter), auch bekannt als HPD-Bereich
    {h=h(θ); πh(h)h_}
  4. das wahrscheinlichste Modell, das zwischen der Einstellung bestimmter Parameterkomponenten auf bestimmte Werte und der Beibehaltung unbekannter (und zufälliger) Werte wählt.

Dies sind nur Beispiele für viele Verwendungen der posterioren Verteilung. In allen Fällen, außer den einfachsten, kann ich die Antworten nicht mit Blick auf die posteriore Verteilungsdichte geben und muss numerische Auflösungen wie Monte-Carlo- und Markov-Ketten-Monte-Carlo-Methoden durchlaufen.

Xi'an
quelle
Vielen Dank für die Antwort Xi'an. Ich bin mir sicher, dass dies meine Frage beantwortet, aber ich habe immer noch Schwierigkeiten, sie zu verstehen. Habe ich recht, dass wir eine Wahrscheinlichkeitsdichtefunktion haben, die dem posterior entspricht (dh indem wir den Prior und die Wahrscheinlichkeit kombinieren)? Warum konnten wir den 95% -KI nicht direkt aus dieser und nicht aus der abgetasteten posterioren Verteilung finden?
Dave
1
@ Dave Ich denke, der Schlüssel hier ist, was du mit "haben" meinst. Im Allgemeinen haben Sie keine geschlossene Lösung, so dass Sie die Funktion nicht in einem nützlichen Sinne "haben".
Mönch
@monk danke für die Antwort! Haben Sie etwas dagegen, darüber nachzudenken, was eine nicht geschlossene Formularlösung ausmacht?
Dave
1
Angenommen, Ihr Prior ist Beta (a, b) und Ihre Wahrscheinlichkeit ist Binomial (n, p). Wie berechnen Sie den Erwartungswert Ihres Seitenzahns? Versuchen Sie, das Integral dieses Produkts mit Stift und Papier zu erarbeiten. Im Allgemeinen ist ein solches Integral etwas, für das ein Computer einen genauen Wert erhalten muss. Alternativ können Sie feststellen, dass Beta vor Binomial konjugiert ist und daher der hintere Teil Beta ist (mit leicht zu berechnenden Parametern). Aber oft wirst du nicht so viel Glück haben. Eine Definition von "geschlossener Form" festzuhalten ist schwierig und allein schon lesenswert.
Mönch
4

Ja, Sie haben möglicherweise eine analytische hintere Verteilung. Der Kern der Bayes'schen Analyse besteht jedoch darin, die posteriore Verteilung der Parameter zu marginalisieren, damit Sie sowohl hinsichtlich der Genauigkeit als auch der Generalisierungsfähigkeit ein besseres Vorhersageergebnis erhalten. Grundsätzlich möchten Sie eine prädiktive Verteilung erhalten, die die folgende Form hat.

p(x|D)=p(x|w)p(w|D)dw

p(w|D)p(w|D)p(x|w)

Karlsson Yu
quelle