Warum wird ein vor einer Varianz als schwach angesehen?

Hintergrund

Eine der am häufigsten verwendeten Schwachstellen vor der Varianz ist das inverse Gamma mit den Parametern (Gelman 2006) . $\alpha =0.001, \beta=0.001$

Diese Verteilung hat jedoch einen 90% von ungefähr . $[3\times10^{19},\infty]$

library(pscl)
sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001))

[1] 3.362941e+19          Inf

Daraus interpretiere ich, dass die eine geringe Wahrscheinlichkeit für eine sehr hohe Varianz und eine sehr geringe Wahrscheinlichkeit für eine Varianz von weniger als 1 ergibt . $IG(0.001, 0.001)$ $P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006$

pigamma(1, 0.001, 0.001)
[1] 0.006312353

Frage

Vermisse ich etwas oder ist das eigentlich ein informativer Vorgänger?

Update zur Verdeutlichung, der Grund, warum ich dies als "informativ" betrachte, ist, dass es sehr stark behauptet, dass die Varianz enorm ist und weit über die Skala von fast jeder jemals gemessenen Varianz hinausgeht.

Follow-up: Würde eine Metaanalyse einer großen Anzahl von Varianzschätzungen eine vernünftigere Vorauswahl ermöglichen?

Referenz

Gelman 2006. Frühere Verteilungen für Varianzparameter in hierarchischen Modellen . Bayesian Analysis 1 (3): 515–533

bayesian multilevel-analysis prior David LeBauer
quelle

Ein "wahrer" nicht informativer Prior ist keine Verteilung. Es gibt also keine vorherige Wahrscheinlichkeit wie P (Sigma <1).

Stéphane Laurent

Antworten:

Mit der inversen Gammaverteilung erhalten wir:

p (σ^{2} | α, β) \propto (σ^{2})^{- α - 1} \exp (- \frac{β}{σ^{2}})

$p(\sigma^2|\alpha,\beta) \propto (\sigma^2)^{-\alpha-1} \exp(-\frac{\beta}{\sigma^2})$

Sie können leicht erkennen, dass bei und das inverse Gamma sich den Jeffreys vor nähert. Diese Verteilung wird als "nicht informativ" bezeichnet, da sie eine angemessene Annäherung an die Jeffreys-Prioritäten darstellt $\beta \rightarrow 0$ $\alpha \rightarrow 0$

p (σ^{2}) \propto \frac{1}{σ^{2}}

$p(\sigma^2) \propto \frac{1}{\sigma^2}$

Was für Skalenparameter nicht aussagekräftig ist, siehe hier beispielsweise Seite 18 , da dieser Prior der einzige ist, der bei einem Skalenwechsel invariant bleibt (beachten Sie, dass die Approximation nicht invariant ist). Dies hat ein unbestimmtes Integral von was anzeigt, dass es nicht korrekt ist, wenn der Bereich von entweder oder . Aber diese Fälle sind nur Probleme in der Mathematik - nicht in der realen Welt. Beobachten Sie niemals einen unendlichen Wert für die Varianz, und wenn die beobachtete Varianz Null ist, haben Sie perfekte Daten !. Sie können nämlich eine Untergrenze von und eine Obergrenze von festlegen , und Ihre Verteilung ist korrekt. $\log(\sigma^2)$ $\sigma^2$ $0$ $\infty$ $L>0$ $U<\infty$

Es mag seltsam erscheinen, dass dies "nicht informativ" ist, da es kleine Varianz gegenüber großen bevorzugt, aber dies ist nur in einem Maßstab. Sie können zeigen, dass eine falsche gleichmäßige Verteilung hat. Dieser Prior bevorzugt also keine Skala gegenüber einer anderen $\log(\sigma^2)$

Obwohl dies nicht direkt mit Ihrer Frage zusammenhängt, würde ich eine "bessere" nicht informative Verteilung vorschlagen, indem ich die oberen und unteren Grenzen und in den Jeffreys vor und wähle . Normalerweise können die Grenzen ziemlich einfach mit ein wenig Nachdenken darüber festgelegt werden, was in der realen Welt tatsächlich bedeutet. Wenn es sich um einen Fehler in irgendeiner physikalischen Größe handelte - kann nicht kleiner sein als ein Atom oder die kleinste Größe, die Sie in Ihrem Experiment beobachten können. Weitere $L$ $U$ $\alpha$ $\beta$ $\sigma^2$ $L$ $U$ könnte nicht größer sein als die Erde (oder die Sonne, wenn Sie wirklich konservativ sein wollten). Auf diese Weise behalten Sie Ihre Invarianzeigenschaften bei, und es ist einfacher, vor der Stichprobe Folgendes zu entnehmen: und dann den simulierten Wert as . $q_{(b)} \sim \mathrm{Uniform}(\log(L),\log(U))$ $\sigma^{2}_{(b)}=\exp(q_{(b)})$

Wahrscheinlichkeitslogik
quelle

+1 nicht nur für die Beantwortung der Frage, sondern auch für nützliche Ratschläge.

whuber

+1 - Uniform für in einem "großen" Bereich ist oft eine gute Wahl. Was die Varianzkomponenten eines hierarchischen Modells angeht, so kann man meiner Meinung nach immer noch in die Nähe des Seitenzahns geraten, wenn der Bereich zu groß ist, seit Sie sich Jeffrey wieder nähern. Aber natürlich ist es eine einfachere Lösung - wählen Sie nur keine großen Intervalle aus :)

l o g (σ)

$log(\sigma)$

JMS

@JMS - In einer heirarchischen Umgebung "quetschen" die Daten die Singularität nicht bei 0 (dh eine Varianz der Ebene 2 könnte Null sein). Der Prior für kleine Werte ist also wichtig. ist ein gutes Level 2 und eine höhere Varianz (ich denke, es wurde auch als "halber Cauchy" bezeichnet, es ähnelt der -Verteilung). Es hat "fette Schwänze" und ist insofern "datenstabil", als die Wahrscheinlichkeit gewinnt, wenn ein Prioritäts- und Wahrscheinlichkeitskonflikt besteht. Auch ist der Jeffrey Prior.

B e t a_{2} (1, 1)

$Beta_{2}(1,1)$

F_{1, 1}

$F_{1,1}$

B e t a_{2} (0, 0)

$Beta_{2}(0,0)$

Wahrscheinlichkeitslogik

@ probabilityislogic danke für die Erklärung. Wenn ich das verstehe, ist das Gamma theoretisch nett, weil seine Wut und weil es mit dem Normalen konjugiert ist, aber in der Anwendung sind diese Funktionen im Allgemeinen nicht erforderlich. Aber was ist der Unterschied zwischen Stichproben aus und ?

[0, \infty]

$[0,\infty]$

σ \sim e x p (U (l o g (L), l o g (U))

$\sigma\sim exp(U(log(L),log(U))$

σ \sim U (L, U)

$\sigma\sim U(L,U)$

David LeBauer

@probabilityislogic Nicht vertraut mit Ihrer Notation, beziehen Sie sich auf die Beta-Primzahl? Wenn ja, ist es eine interessante Wahl. Nicht der halbe Cauchy; das ist nur der Cauchy, der auf . Aber die Beta-Primzahl mit 1/2 wurde "quasi Cauchy" IIRC

(0, \infty)

$(0, \infty)$

α = 1, β = 1 / 2

$\alpha=1, \beta=1/2$

JMS

Es ist ziemlich flach. Der Median liegt bei 1,9 E298, fast die größte Zahl, die man in Gleitberechnung mit doppelter Genauigkeit darstellen kann. Wie Sie hervorheben, ist die Wahrscheinlichkeit, die einem nicht wirklich großen Intervall zugewiesen wird, sehr gering. Es ist schwer, weniger informativ zu werden!

whuber
quelle

Danke für Ihre Erklärung. Ich bin auf Konvergenzprobleme gestoßen und war überrascht, dass so viele der Variablen, mit denen ich arbeite, Mittelwerte <1000 haben (dh wenn etwas> 1000 g ist, wird es in kg gemessen), und die Varianzen liegen in etwa in der gleichen Größenordnung von Größe. Daher stelle ich fest, dass ich mehr Prioritäten benötige, die diese Informationen enthalten, auch wenn ich nicht genau weiß, welchen Wert sie haben oder wie sie partitioniert sind.

David LeBauer

Abhängig vom Modell kann es sein, dass Ihr posterior mit diesem Vorgänger sehr nahe dran ist

JMS