Warum sollte für die hierarchische logistische Regression eine Beta-Verteilung für den Bernoulli-Parameter verwendet werden?

Ich lese gerade Kruschkes hervorragendes Buch "Doing Bayesian Data Analysis". Das Kapitel über hierarchische logistische Regression (Kapitel 20) ist jedoch etwas verwirrend.

Abbildung 20.2 beschreibt eine hierarchische logistische Regression, bei der der Bernoulli-Parameter als lineare Funktion der durch eine Sigmoidfunktion transformierten Koeffizienten definiert ist. Dies scheint die Art und Weise zu sein, wie hierarchische logistische Regression in den meisten Beispielen dargestellt wird, die ich auch online in anderen Quellen gesehen habe. Zum Beispiel - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

Wenn die Prädiktoren jedoch nominal sind, fügt er der Hierarchie eine Ebene hinzu. Der Bernoulli-Parameter wird nun aus einer Beta-Verteilung (Abbildung 20.5) mit Parametern erstellt, die durch mu und kappa bestimmt werden, wobei mu die Sigmoidtransformation der linearen Funktion von Koeffizienten ist und Kappa verwendet ein Gamma-Prior.

Dies scheint vernünftig und analog zu dem Münzwurfbeispiel aus Kapitel 9 zu sein, aber ich verstehe nicht, was nominelle Prädiktoren mit dem Hinzufügen einer Betaverteilung zu tun haben. Warum würde man dies bei metrischen Prädiktoren nicht tun und warum wurde die Beta-Verteilung für die nominalen Prädiktoren hinzugefügt?

EDIT: Klarstellung über die Modelle, auf die ich mich beziehe. Zunächst ein logistisches Regressionsmodell mit metrischen Prädiktoren (kein Beta-Prior). Dies ähnelt anderen Beispielen für hierarchische logistische Regression, z. B. dem obigen Fehlerbeispiel:

y_{i} \sim Bernoulli (μ_{i}) μ_{i} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (M_{β}, T_{β})

$y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\$

Dann das Beispiel mit nominalen Prädiktoren. An dieser Stelle verstehe ich die Rolle der "unteren" Ebene der Hierarchie (Einbeziehen des logistischen Ergebnisses in eine Beta vor einem Binomial) nicht ganz und warum sollte es anders sein als das metrische Beispiel.

z_{i} \sim Bin (θ_{i}, N) θ_{i} \sim Beta (a_{j}, b_{j}) a_{j} = μ_{j} κ b_{j} = (1 - μ_{j}) κ κ \sim Γ (S_{κ}, R_{κ}) μ_{j} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (0, τ_{β}) τ_{β} = 1 / σ_{β}^{2} σ_{β}^{2} \sim gefaltet t (T_{t}, D F)

$z_i \sim \operatorname{Bin}(\theta_i, N) \\ \theta_i \sim \operatorname{Beta}(a_j, b_j) \\ a_j = \mu_j \kappa \\ b_j = (1- \mu_j) \kappa \\ \kappa \sim \Gamma(S_\kappa, R_\kappa) \\ \mu_j = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(0, \tau_\beta) \\ \tau_\beta = 1/\sigma_{\beta}^2 \\ \sigma_{\beta}^2 \sim \operatorname{folded t} (T_t, DF)$

regression bayesian logistic multilevel-analysis user4733
quelle

Antworten:

Die beiden Modelle, die Sie vergleichen, weisen viele irrelevante Merkmale auf, und ich denke, Sie können Ihre Frage im Zusammenhang mit den folgenden beiden vereinfachten Modellen klarer formulieren:

Modell 1:

\begin{aligned} y_{ich} | μ_{ich} & \sim Bern (μ_{ich}) \\ μ_{ich} & \sim π (μ_{ich}) \end{aligned}

$\begin{align} y_i | \mu_i &\sim \operatorname{Bern}( \mu_i ) \\ \mu_i &\sim \pi(\mu_i) \end{align}$

Modell 2:

\begin{aligned} y_{ich} | θ_{ich} & \sim Bern (θ_{ich}) \\ θ_{ich} | μ_{ich}, κ & \sim Beta (μ_{ich} κ, (1 - μ_{ich}) κ) \\ μ_{ich} & \sim π (μ_{ich}) \end{aligned}

$\begin{align} y_i | \theta_i & \sim \operatorname{Bern}( \theta_i ) \\ \theta_i | \mu_i,\kappa &\sim \operatorname{Beta}\big( \mu_i\kappa, (1-\mu_i)\kappa \big) \\ \mu_i&\sim \pi(\mu_i) \end{align}$

Ihre Fragen sind: (1) Welche Rolle spielt die Beta-Distribution? (2) Wie unterscheidet sich Modell 2 (wenn überhaupt) von Modell 1?

Oberflächlich betrachtet scheinen dies ziemlich unterschiedliche Modelle zu sein, aber tatsächlich sind die Randverteilungen von in beiden Modellen identisch. Die hintere Verteilung von in Modell 1 ist , während die Ränder posteriori Verteilung von in Modell 2 ist : $\mu_i$ $\mu_i$

\begin{matrix} p (μ_{ich} | y_{ich}) \propto μ_{ich}^{y_{ich}} (1 - μ_{ich})^{1 - y_{ich}} π (μ_{ich}) \end{matrix}

$\begin{gather} p(\mu_i|y_i) \propto \mu_i^{y_i}(1-\mu_i)^{1-y_i}\pi(\mu_i) \end{gather}$

μ_{i}

$\mu_i$

\begin{aligned} p (μ_{ich} | y_{ich}, κ) & \propto \int_{0}^{1} \frac{θ_{ich}^{y_{ich} + μ_{ich} κ - 1} (1 - θ_{ich})^{κ (1 - μ_{ich}) - y_{ich}}}{B (κ μ_{ich}, κ (1 - μ_{ich}))} d θ π (μ_{ich}) \\ \propto \frac{B (y_{ich} + μ_{ich} κ, 1 - y_{ich} + κ (1 - μ_{ich})) π (μ_{ich})}{B (κ μ_{ich}, κ (1 - μ_{ich}))} \\ \propto μ_{ich}^{y_{ich}} (1 - μ_{ich})^{1 - y_{ich}} π (μ_{ich}) \end{aligned}

$\begin{align} p(\mu_i|y_i,\kappa) &\propto \int^1_0 \frac{\theta_i^{y_i + \mu_i\kappa - 1}(1-\theta_i)^{\kappa(1-\mu_i)-y_i}}{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} d\theta \,\pi(\mu_i) \\ &\propto \frac{B\big(y_i+\mu_i\kappa,1-y_i+\kappa(1-\mu_i)\big)\pi(\mu_i) }{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} \\ &\propto \mu_i^{y_i}(1-\mu_i)^{1-y_i} \pi(\mu_i) \end{align}$

$\theta_i$

jmtroos
quelle

Der Grund für das Ziehen des Bernoulli-Parameters aus einer Beta-Verteilung ist, dass das Beta mit dem Binomial konjugiert ist . Die Verwendung einer konjugierten Vorverteilung ermöglicht eine geschlossene Lösung zum Auffinden des Seitenzahns.

EDIT: klären. Jedes Modell wird funktionieren. Selbst mit MCMC ist es nützlich, konjugierte Priors zu haben, da dies die Verwendung spezialisierter Sampler für verschiedene Arten von Distributionen ermöglicht, die effizienter sind als generische Sampler. Siehe zum Beispiel das JAGS-Benutzerhandbuch, Kap. 4.1.1 und 4.2.

Jack Tanner
quelle

Es gibt möglicherweise nicht genügend Kontext aus dem Buch in meiner Frage, aber diese Analysen werden mit Gibbs-Stichproben durchgeführt, sodass eine geschlossene Darstellung des Seitenzahns nicht erforderlich ist. In dem Beispiel, das ich verlinkt habe, ist der Bernoulli-Parameter nicht als Beta-Verteilung festgelegt, sondern ergibt sich aus einer Sigmoid-Transformation der linearen Prädiktoren, die normalverteilte Koeffizienten haben. Auf diese Weise präsentiert Kruschke auch ein früheres Beispiel (mit metrischen Prädiktoren) im Kapitel (der Bernoulli-Parameter ist nur die Sigmoid-Transformation der linearen Funktion mit normalverteilten Koeffizienten)

user4733

@ user4733 Jack Tanner hat Recht, dass Beta das Konjugat vor den Bernoulli-Proben ist. Es scheint mehr als ein Zufall, dass es gewählt wurde. Ja, Sie führen möglicherweise eine Gibbs - Stichprobe durch, um die hintere Verteilung zu ermitteln. In einem hierarchischen Modell sind jedoch mehrere frühere Verteilungen beteiligt, und es kann sein, dass Sie einen Hyperparameter (einen Parameter für eine Familie früherer Verteilungen) mit einem Prior versehen Wenn Sie möchten, können Sie in diesem Zusammenhang einen konjugierten Prior verwenden. Einige Ihrer Buchbeschreibungen sind für uns verwirrend.

Michael R. Chernick

Sie nehmen kleine Auszüge, die Lücken in unserer Fähigkeit schaffen, zu verstehen, was vor sich geht. Sie müssen das Modell und die Hierarchie der Prioren besser beschreiben, damit wir helfen können (zumindest für mich)>

Michael R. Chernick

Den hierarchischen Modellen, auf die ich mich beziehe, wurden einige Beschreibungen hinzugefügt. Hoffentlich hilft es.

user4733