Erfordert ein Bayes-Schätzer, dass der wahre Parameter eine mögliche Abweichung vom Prior ist?

Dies mag eine philosophische Frage sein, aber hier geht es weiter: In der Entscheidungstheorie wird das Risiko eines Bayes-Schätzers für in Bezug auf eine vorherige Verteilung on definiert . $\hat\theta(x)$ $\theta\in\Theta$ $\pi$ $\Theta$

Einerseits muss eine mögliche Variation unter , damit das wahre die Daten erzeugt hat (dh "existiert") , z. B. eine Wahrscheinlichkeit ungleich Null, eine Dichte ungleich Null usw.; Auf der anderen Seite ist nicht bekannt, daher die Wahl eines Prior, so dass wir keine Garantie dafür haben, dass das wahre eine mögliche Variation unter dem von uns gewählten . $\theta$ $\theta$ $\pi$ $\theta$ $\theta$ $\pi$

Nun scheint es mir, dass wir irgendwie so auswählen müssen, dass eine mögliche Variation wäre. Andernfalls würden bestimmte Sätze nicht gelten. Zum Beispiel wäre die Minimax-Schätzung keine Bayes-Schätzung für einen ungünstigsten Prior, da wir diesen Prior willkürlich schlecht machen könnten, indem wir eine große Region um und aus ihrer Domäne ausschließen. Es kann jedoch schwierig sein , zu gewährleisten, dass tatsächlich in der Domäne liegt. $\pi$ $\theta$ $\theta$ $\theta$

Meine Fragen sind also:

Wird allgemein angenommen, dass das tatsächliche eine mögliche Variation von ? $\theta$ $\pi$
Kann das garantiert werden?
Können Fälle, die dies verletzen, zumindest irgendwie erkannt werden, sodass man sich nicht auf Theoreme wie Minimax verlässt, wenn die Bedingungen nicht zutreffen?
Wenn dies nicht erforderlich ist, warum gelten dann die Standardergebnisse in der Entscheidungstheorie?

bayesian prior decision-theory point-estimation user32849
quelle

Antworten:

Sehr schöne Frage! Es wäre zwar sinnvoll, dass eine "gute" vorherige Verteilung dem "wahren" Parameter eine positive Wahrscheinlichkeit oder einen positiven Dichtewert , aber aus rein entscheidender Sicht muss dies nicht der Fall sein. Ein einfaches Gegenbeispiel zu dieser "Intuition", dass notwendig sein sollte, wenn die vorherige Dichte und der "wahre" Wert des Parameters ist, ist der Brillant Minimaxitätsergebnis von Casella und Strawderman (1981): bei der Schätzung eines normalen Mittelwerts basierend auf einer einzelnen Beobachtung mit der zusätzlichen Einschränkung, dass , $\theta_0$

π (θ_{0}) > 0

$\pi(\theta_0)>0$

π (\cdot)

$\pi(\cdot)$

θ_{0}

$\theta_0$

μ

$\mu$

x \sim N (μ, 1)

$x\sim{\cal N}(\mu,1)$

| μ | < ρ

$|\mu|<\rho$

ρ

$\rho$ ist klein genug, , der Minimax-Schätzer entspricht einer (ungünstigsten) Uniform vor , was bedeutet, dass und ( gleiches Gewicht gibt) und keiner zu einem anderen Wert des Mittelwerts ) Wenn zunimmt, wächst die Unterstützung des ungünstigsten Prior, aber es bleibt eine endliche Menge möglicher Werte. Die hintere Erwartung kann jedoch einen beliebigen Wert für annehmen .

ρ \leq 1.0567

$\rho\le 1.0567$

{- ρ, ρ}

$\{-\rho,\rho\}$

π

$\pi$

- ρ

$-\rho$

ρ

$\rho$

μ

$\mu$

π (θ) = \frac{1}{2} δ_{- ρ} (θ) + \frac{1}{2} δ_{ρ} (θ)

$\pi(\theta)=\frac{1}{2}\delta_{-\rho}(\theta)+ \frac{1}{2}\delta_{\rho}(\theta)$

ρ

$\rho$

E [μ | x]

$\mathbb{E}[\mu|x]$

(- ρ, ρ)

$(-\rho,\rho)$

Der Kern der Diskussion (siehe Kommentare) könnte sein, dass, wenn der Bayes-Schätzer gezwungen wäre, ein Punkt für die Unterstützung von , seine Eigenschaften ganz anders wären. $\pi(\cdot)$

In ähnlicher Weise sind bei der Betrachtung zulässiger Schätzer Bayes-Schätzer, die einem ordnungsgemäßen Prior eines kompakten Satzes zugeordnet sind, normalerweise zulässig, obwohl sie eine eingeschränkte Unterstützung haben.

In beiden Fällen wird der Begriff frequentistischen (minimaxity oder Zulässigkeit) über den möglichen Bereich von Parametern definiert vielmehr , dass bei dem „wahren“ Wert des Parameters Zum Beispiel (das eine Antwort auf Frage 4. bringt), am hinteren Risiko suchen oder auf Bayes-Risiko beinhaltet nicht den wahren Wert .

\int_{Θ} L (θ, δ) π (θ | x) d θ

$\int_\Theta L(\theta,\delta) \pi(\theta|x)\text{d}\theta$

\int_{X} \int_{Θ} L (θ, δ) π (θ) f (x | θ) d θ d x

$\int_{\cal X}\int_\Theta L(\theta,\delta) \pi(\theta)f(x|\theta)\text{d}\theta\text{d}x$

θ_{0}

$\theta_0$

Darüber hinaus wird, wie im obigen Beispiel ausgeführt, der Bayes-Schätzer durch einen formalen Ausdruck wie den hinteren Mittelwert für den quadratischen (oder ) Verlust kann dieser Schätzer Werte außerhalb der Unterstützung von , diese Unterstützung nicht konvex ist.

{\hat{θ}}^{π} (x) = \int_{Θ} θ π (θ | x) d θ

$\hat{\theta}^\pi(x)=\int_\Theta \theta\pi(\theta|x)\text{d}\theta$

L_{2}

$L_2$

π

$\pi$

Nebenbei beim Lesen

Damit das wahre θ die Daten erzeugt hat (dh "existiert"), muss θ eine mögliche Variation unter π sein, z. B. eine Wahrscheinlichkeit ungleich Null, eine Dichte ungleich Null

Ich halte es für eine falsche Darstellung der Bedeutung eines Prior. Die vorherige Verteilung soll nicht für einen tatsächlichen physikalischen (oder realen) Mechanismus stehen, bei dem ein Parameterwert aus gefolgt von einer Beobachtung die aus . Der Prior ist ein Referenzmaß für den Parameterraum, das vorherige Informationen und subjektive Überzeugungen über den Parameter enthält und keineswegs eindeutig ist. Eine Bayes'sche Analyse ist immer relativ zu der zuvor ausgewählten, um diese Bayes'sche Analyse durchzuführen. Daher besteht keine absolute Notwendigkeit, dass der wahre Parameter zur Unterstützung von . Wenn es sich bei dieser Unterstützung um eine kompakte, verbundene Gruppe handelt, ist $\theta_0$ $\pi$ $x$ $f(x|\theta_0)$ $\pi$ ${\mathscr A}$ Ein Wert des Parameters außerhalb der Menge kann nicht konsistent durch den hinteren Mittelwert geschätzt werden , dies verhindert jedoch nicht einmal, dass der Schätzer zulässig ist. ${\mathscr A}$ $\hat{\theta}^\pi$

Xi'an
quelle

Was Ihren letzten Punkt betrifft, so verwirrt mich das: Sagen wir, ich habe eine Normalverteilung, wobei eine ausreichend kleine negative Zahl ist. Wenn ich aus irgendeinem seltsamen Grund einen logarithmischen Normalprior (Unterstützung ) auf setze (unabhängig davon, wie viel Sinn das macht), wäre ein Bayes-Schätzer unter einem solchen Prior sicherlich schlechter als die Minimax-Schätzung , was nicht passieren soll. Aber vielleicht interpretiere ich hier etwas falsch ...

μ

$\mu$

[0, + \infty)

$[0,+\infty)$

μ

$\mu$

user32849

Gewöhnlich, vgl. Berger (1985), entspricht ein ungünstigster Prior dem Minimax-Risiko.

Xi'an

Ich war hier wirklich verwirrt: Ihr Buch (Kapitel 2) schien anzunehmen, dass und insbesondere in Satz 2.4.17 , wo es am ungünstigsten ist prior ist eine diskrete Verteilung über . Aber ich denke, ich hätte Seite 10 genauer lesen sollen

θ \sim π (θ)

$\theta \sim \pi(\theta)$

Θ = [- m, m]

$\Theta=[-m, m]$

Θ

$\Theta$

;-)

Das integrierte Risiko beinhaltet zu keinem Zeitpunkt den "wahren" Parameter. In diesem Sinne spielt es also keine Rolle.

Xi'an

In gewissem Sinne erfasst das Risiko also den Verlust, den wir erwarten, und nicht den, den wir tatsächlich erleben. Das war enorm hilfreich, vielen Dank!

user32849

Ja, es wird allgemein angenommen, dass das wahre im Bereich des Prior liegt. Es liegt in der Verantwortung des Statistikers, dafür zu sorgen, dass dies der Fall ist. $\theta$
Normalerweise ja. Wenn Sie beispielsweise einen Mittelwert oder einen Standortparameter schätzen, hat jeder vorherige Wert den wahren Wert in seiner Domäne. (Wenn bekannt ist, dass der Parameter größer als Null ist, z. B. "mittlere Anzahl von Verkehrsunfällen auf der Bay Bridge pro Tag", muss der Prior offensichtlich keine negativen Werte enthalten.) Wenn wir eine Wahrscheinlichkeit schätzen, keine vor hat den wahren Wert in seiner Domäne. Wenn wir einen Prior für einen Varianzterm konstruieren, hat jeder Prior für den wahren Wert in seiner Domäne ... und so weiter. $(-\infty, \infty)$ $[0,1]$ $(0, \infty)$
Wenn Ihr Posterior an einer Kante der Domäne des Prior "gestapelt" ist und Ihr Prior der Domäne an derselben Kante eine unnötige Einschränkung auferlegt, ist dies ein Ad-hoc-Indikator dafür, dass die unnötige Einschränkung möglicherweise Probleme verursacht. Dies sollte jedoch nur dann der Fall sein, wenn a) Sie einen Prior erstellt haben, dessen Form weitgehend von der Zweckmäßigkeit anstelle des tatsächlichen Vorwissens bestimmt wird, und b) die durch die Zweckmäßigkeit hervorgerufene Form des Prior die Domäne des Parameters auf eine Teilmenge dessen beschränkt, was " natürliche "Domäne kann als betrachtet werden.

Ein Beispiel hierfür ist eine alte, hoffentlich lange veraltete Praxis, den Prior auf einen Varianzterm zu beschränken, der leicht von Null entfernt ist, um mögliche Rechenschwierigkeiten zu vermeiden. Wenn der wahre Wert der Varianz zwischen der Grenze und Null liegt, ist es möglich, aber tatsächlich über die potenziellen Werte der Varianz nachzudenken, wenn die Daten gegeben sind, oder (zum Beispiel) stattdessen den Prior in das Protokoll der Varianz aufzunehmen Um dieses Problem zu vermeiden, und eine ähnliche milde Klugheit sollten Sie es ermöglichen, domänenbeschränkende Prioritäten im Allgemeinen zu vermeiden.

Beantwortet von # 1.

jbowman
quelle

Für den Fall, dass derjenige, der die Antwort abgelehnt hat, zurückkehrt - warum das "nicht nützlich"?

Jbowman

Die einfache, intuitive Antwort lautet, dass Prior Ihr Vorwissen über das widerspiegelt und das minimale Wissen, das Sie haben sollten, sich auf seine Domäne bezieht. Wenn Sie Bounded Prior verwenden, gehen Sie davon aus, dass die Werte außerhalb der Grenzen eine Wahrscheinlichkeit von Null haben und unmöglich sind. Dies ist eine sehr starke Annahme, die nicht ohne gute Begründung getroffen werden sollte. Aus diesem Grund verwenden Personen, die keine starken vorherigen Annahmen treffen möchten, vage Prioritäten für to . $\theta$ $-\infty$ $\infty$

Abgesehen von dem begrenzten Fall sollte Ihr Posterior, wenn Ihre Probe wächst oder genauer gesagt mehr Informationen übermittelt, schließlich zu konvergieren, unabhängig von der vorherigen . $\theta$

Tim
quelle