Warum gibt es Empfehlungen gegen die Verwendung von Jeffreys oder entropiebasierten Priors für MCMC-Sampler?

Auf ihrer Wiki-Seite geben die Entwickler von Stan Folgendes an:

Einige Prinzipien, die wir nicht mögen: Invarianz, Jeffreys, Entropie

Stattdessen sehe ich viele Normalverteilungsempfehlungen. Bisher habe ich Bayes'sche Methoden verwendet, die nicht auf Stichproben beruhten, und war froh zu verstehen, warum war eine gute Wahl für Binomialwahrscheinlichkeiten. $\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)$

bayesian mcmc prior pymc stan wirrbel
quelle

Allgemeiner Kommentar: Die Softwaredokumentation rekapituliert nicht immer die statistischen Argumente dafür, was Software tut und was nicht. Das gilt für die meisten R-Pakete, die ich mir angesehen habe, und ich bin nicht überrascht, dasselbe von Stan zu hören. Andrew Gelman ist offensichtlich ein produktiver Autor.

Nick Cox

Weiterer allgemeiner Kommentar: Ich finde diese Art von Frage nicht sehr befriedigend, auch weil es sich um bestimmte Personen handelt. Wenn Live-Autoren nicht irgendwo erklären und hier offensichtlich nicht aktiv sind, senden Sie ihnen eine E-Mail, um sie zu fragen. Es ist befriedigender, in Abstraktion nach den relativen Vorzügen verschiedener Ansätze zu fragen. Manchmal ist es fair zu sagen, dass Sie immer eine andere Software verwenden können, wenn Sie etwas vermissen, einschließlich des Schreibens Ihrer eigenen. Geheimhaltung: nie Stan verwendet.

Nick Cox

@NickCox Ich glaube nicht, dass diese Frage von einer Anonymisierung profitiert hätte, da (1) der Kontext einer Samling-Software wichtig ist (2) ich den Eindruck habe, dass eine Ablehnung von Jeffreys Priors ungewöhnlich genug ist, um darauf hinzuweisen dass eine bekannte Quelle diese Behauptung aufstellt. (3) Ich halte es nicht für konfrontativ, jemanden in einer Frage zu zitieren.

Wirrbel

Andy schrieb die "Einige Prinzipien, die wir nicht mögen: Invarianz, Jeffreys, Entropie", aber um zu sehen, warum Sie in seinem Buch

Ben Goodrich

Außerdem enthält dieses Papier die neuesten Überlegungen zu Prioritäten unter drei Stan-Entwicklern.

Ben Goodrich

Antworten:

Dies ist natürlich eine vielfältige Gruppe von Menschen mit unterschiedlichen Meinungen, die sich zusammenfinden und ein Wiki schreiben. Ich fasse zusammen, dass ich weiß / verstehe, mit einigen Kommentaren:

Die Auswahl Ihres Prior aufgrund der Rechenfreundlichkeit ist eine unzureichende Begründung. Es ist beispielsweise keine gute Idee, eine Beta (1/2, 1/2) zu verwenden, nur weil sie eine konjugierte Aktualisierung ermöglicht. Wenn Sie zu dem Schluss kommen, dass es gute Eigenschaften für die Art des Problems hat, an dem Sie arbeiten, ist das in Ordnung, und Sie können genauso gut eine Wahl treffen, die die Implementierung vereinfacht. Es gibt viele Beispiele, bei denen sich bequeme Standardoptionen als problematisch herausstellen (siehe Gamna (0,001, 0,001) vor dem Gibbs-Sampling).
Bei Stan gibt es - anders als bei WinBUGS oder JAGS - keinen besonderen Vorteil bei (bedingt) konjugierten Priors. Sie können den rechnerischen Aspekt also etwas ignorieren. Nicht ganz, denn bei sehr schweren Priors (oder falschen Priors) und Daten, die die Parameter nicht gut identifizieren, treten Probleme auf (kein wirklich Stan-spezifisches Problem, aber Stan ist ziemlich gut darin, diese Probleme zu identifizieren und den Benutzer zu warnen anstatt glücklich weg zu probieren).
Jeffreys 'und andere "Low Information" -Prioren können manchmal unangemessen sein oder in hohen Dimensionen (egal, um sie abzuleiten) und mit spärlichen Daten etwas zu schwer zu verstehen sein. Es kann nur sein, dass diese zu oft Probleme verursachten, als dass die Autoren sich nie damit abfinden könnten. Sobald Sie in etwas arbeiten, lernen Sie mehr und fühlen sich wohl, daher die gelegentliche Meinungsumkehr.
In der Einstellung für spärliche Daten ist der Prior wirklich wichtig. Wenn Sie angeben können, dass völlig unplausible Werte für einen Parameter unplausibel sind, hilft dies sehr. Dies motiviert die Idee von schwach informativen Prioritäten - nicht wirklich vollständig informativen Prioritäten, aber solchen mit der größten Unterstützung für plausible Werte.
In der Tat könnte man sich fragen, warum man sich mit nicht informativen Prioritäten beschäftigt, wenn wir viele Daten haben, die die Parameter wirklich gut identifizieren (man könnte nur die maximale Wahrscheinlichkeit verwenden). Natürlich gibt es viele Gründe (Vermeidung von Pathologien, Erlangung der "echten Form" von Posterioren usw.), aber in Situationen mit "vielen Daten" scheint es stattdessen kein wirkliches Argument gegen schwach informative Priors zu geben.
Vielleicht etwas seltsamerweise ist ein N (0, 1) für viele Anwendungen ein überraschend anständiger Prior für den Koeffizienten in der logistischen, Poisson- oder Cox-Regression. Dies entspricht beispielsweise in etwa der Verteilung der beobachteten Behandlungseffekte auf viele klinische Studien.

Björn
quelle

Vielen Dank für die ausführliche Antwort. Ich denke, mein Erstaunen betrifft nicht so sehr die Konjugation (denn wenn ich das richtig verstehe, müssen Jeffreys Priors keine konjugierten Priors sein, sie müssen nur unter Reparametrisierung unveränderlich sein). Ich würde also Ratschläge gegen konjugierte Priors völlig verstehen.

Wirrbel

Ich denke, die Sorge bei Jeffreys Prior besteht hauptsächlich darin, dass es sich um einen hochdimensionalen Prior handelt, der möglicherweise kein richtiger Prior ist und einen Einfluss auf Ihre Schlussfolgerung hat, den Sie nicht vollständig verstehen. Ich denke, das ist hauptsächlich ein Problem mit spärlichen Daten, obwohl vielleicht jemand ein Beispiel für nicht spärliche Daten nennen kann, bei dem einige Probleme auftreten (mir sind keine bekannt). Mit Jeffreys früheren und verschiedenen anderen "nicht informativen" Optionen besteht außerdem die Möglichkeit, sie tatsächlich ableiten zu müssen.

Björn

Sie liefern keine wissenschaftliche / mathematische Begründung dafür. Die meisten Entwickler arbeiten nicht mit dieser Art von Priors und bevorzugen pragmatischere / heuristischere Priors, z. B. normale Priors mit großen Abweichungen (die in einigen Fällen informativ sein können). Es ist jedoch etwas seltsam, dass sie gerne PC-Priors verwenden, die auf Entropy (KL-Divergenz) basieren, nachdem sie mit der Arbeit an diesem Thema begonnen haben.

Ein ähnliches Phänomen trat bei WinBUGS auf , als die Entwickler das als nicht informativen Prior für Präzisionsparameter empfahlen, da es der Form des Jeffreys-Prior ähnelt. Dieser Prior wurde zum Standardprior für Präzisionsparameter. Später wurde gezeigt ( von Gelman! ), Dass sie sehr informativ sein können. $Gamma(0.001,0.001)$

Prior
quelle

Könnten Sie einen informativen Hyperlink / eine Quelle für die Gelman-Behauptung bereitstellen?

Jim

@ Jim Sicher, es ist das Papier: projecteuclid.org/euclid.ba/1340371048

Vor dem