Auf ihrer Wiki-Seite geben die Entwickler von Stan Folgendes an:
Einige Prinzipien, die wir nicht mögen: Invarianz, Jeffreys, Entropie
Stattdessen sehe ich viele Normalverteilungsempfehlungen. Bisher habe ich Bayes'sche Methoden verwendet, die nicht auf Stichproben beruhten, und war froh zu verstehen, warum war eine gute Wahl für Binomialwahrscheinlichkeiten.
Antworten:
Dies ist natürlich eine vielfältige Gruppe von Menschen mit unterschiedlichen Meinungen, die sich zusammenfinden und ein Wiki schreiben. Ich fasse zusammen, dass ich weiß / verstehe, mit einigen Kommentaren:
Die Auswahl Ihres Prior aufgrund der Rechenfreundlichkeit ist eine unzureichende Begründung. Es ist beispielsweise keine gute Idee, eine Beta (1/2, 1/2) zu verwenden, nur weil sie eine konjugierte Aktualisierung ermöglicht. Wenn Sie zu dem Schluss kommen, dass es gute Eigenschaften für die Art des Problems hat, an dem Sie arbeiten, ist das in Ordnung, und Sie können genauso gut eine Wahl treffen, die die Implementierung vereinfacht. Es gibt viele Beispiele, bei denen sich bequeme Standardoptionen als problematisch herausstellen (siehe Gamna (0,001, 0,001) vor dem Gibbs-Sampling).
Bei Stan gibt es - anders als bei WinBUGS oder JAGS - keinen besonderen Vorteil bei (bedingt) konjugierten Priors. Sie können den rechnerischen Aspekt also etwas ignorieren. Nicht ganz, denn bei sehr schweren Priors (oder falschen Priors) und Daten, die die Parameter nicht gut identifizieren, treten Probleme auf (kein wirklich Stan-spezifisches Problem, aber Stan ist ziemlich gut darin, diese Probleme zu identifizieren und den Benutzer zu warnen anstatt glücklich weg zu probieren).
Jeffreys 'und andere "Low Information" -Prioren können manchmal unangemessen sein oder in hohen Dimensionen (egal, um sie abzuleiten) und mit spärlichen Daten etwas zu schwer zu verstehen sein. Es kann nur sein, dass diese zu oft Probleme verursachten, als dass die Autoren sich nie damit abfinden könnten. Sobald Sie in etwas arbeiten, lernen Sie mehr und fühlen sich wohl, daher die gelegentliche Meinungsumkehr.
In der Einstellung für spärliche Daten ist der Prior wirklich wichtig. Wenn Sie angeben können, dass völlig unplausible Werte für einen Parameter unplausibel sind, hilft dies sehr. Dies motiviert die Idee von schwach informativen Prioritäten - nicht wirklich vollständig informativen Prioritäten, aber solchen mit der größten Unterstützung für plausible Werte.
In der Tat könnte man sich fragen, warum man sich mit nicht informativen Prioritäten beschäftigt, wenn wir viele Daten haben, die die Parameter wirklich gut identifizieren (man könnte nur die maximale Wahrscheinlichkeit verwenden). Natürlich gibt es viele Gründe (Vermeidung von Pathologien, Erlangung der "echten Form" von Posterioren usw.), aber in Situationen mit "vielen Daten" scheint es stattdessen kein wirkliches Argument gegen schwach informative Priors zu geben.
quelle
Sie liefern keine wissenschaftliche / mathematische Begründung dafür. Die meisten Entwickler arbeiten nicht mit dieser Art von Priors und bevorzugen pragmatischere / heuristischere Priors, z. B. normale Priors mit großen Abweichungen (die in einigen Fällen informativ sein können). Es ist jedoch etwas seltsam, dass sie gerne PC-Priors verwenden, die auf Entropy (KL-Divergenz) basieren, nachdem sie mit der Arbeit an diesem Thema begonnen haben.
Ein ähnliches Phänomen trat bei WinBUGS auf , als die Entwickler das als nicht informativen Prior für Präzisionsparameter empfahlen, da es der Form des Jeffreys-Prior ähnelt. Dieser Prior wurde zum Standardprior für Präzisionsparameter. Später wurde gezeigt ( von Gelman! ), Dass sie sehr informativ sein können.Gamma(0.001,0.001)
quelle