Schwach informative Vorverteilungen für Skalenparameter

21

Ich habe Log-Normalverteilungen als frühere Verteilungen für Skalenparameter verwendet (für Normalverteilungen, t-Verteilungen usw.), wenn ich eine ungefähre Vorstellung davon habe, wie die Skala aussehen soll, mich aber irren möchte, wenn ich sage, dass ich es nicht weiß viel darüber. Ich benutze es, weil die Verwendung für mich intuitiv sinnvoll ist, aber ich habe nicht gesehen, dass andere es verwenden. Gibt es versteckte Gefahren?

John Salvatier
quelle
1
Normalen haben konjugierte Prioren: en.wikipedia.org/wiki/Normal-gamma_distribution . Diese sind möglicherweise viel einfacher zu verwenden.
whuber
Interessant. Ich mache numerische Sachen, gibt es einen Vorteil für diese Distributionen neben der Kongugalität?
John Salvatier
5
Nicht wirklich meine Gegend, aber dies könnte relevant sein? Gelman A. Frühere Verteilungen für Varianzparameter in hierarchischen Modellen. Bayesian Analysis 2006; 1: 515–533. dx.doi.org/10.1214/06-BA117A
am
Ich habe diese von Pérez und Pericchi vorgeschlagene Scaled-Beta 2- Distribution gefunden. 2
Konjugierte Priors für eine bestimmte Verteilung wie die normale sind nur Priors, die zu dieser Verteilung als eine posteriore Verteilung führen, wenn ein Satz von Daten gegeben ist. Wenn Sie zuvor ein Konjugat verwenden, müssen Sie sich nicht auf die Integration einlassen, um den Seitenzahn zu berechnen. Es macht die Dinge bequem, aber heutzutage macht es MCMC viel einfacher, eine Vielzahl möglicher Prioritäten zu verwenden.
Michael R. Chernick

Antworten:

20

Ich würde empfehlen, eine "Beta-Verteilung der zweiten Art" (kurz Beta 2 ) für eine leicht informative Verteilung zu verwenden und die konjugierte inverse Gamma-Verteilung zu verwenden, wenn Sie starke Vorurteile haben. Der Grund, warum ich dies sage, ist, dass der konjugierte Prior in dem Sinne nicht robust ist, dass, wenn der Prior und der Datenkonflikt bestehen, der Prior einen uneingeschränkten Einfluss auf die posteriore Verteilung hat. Ein solches Verhalten würde ich als "dogmatisch" bezeichnen und nicht durch milde vorherige Informationen gerechtfertigt .

Die Eigenschaft, die die Robustheit bestimmt, ist das Schwanzverhalten des Prior und der Wahrscheinlichkeit. Ein sehr guter Artikel mit den technischen Details ist hier . Zum Beispiel kann eine Wahrscheinlichkeit so gewählt werden (sagen wir eine t-Verteilung), dass sie als Beobachtung (dh willkürlich groß wird) aus der Analyse eines Standortparameters gestrichen wird (ähnlich wie Sie es intuitiv tun würden) mit einer solchen Beobachtung zu tun). Die Rate des "Verwerfens" hängt davon ab, wie schwer die Schwänze der Verteilung sind.yi

Einige Folien, die eine Anwendung im Kontext der hierarchischen Modellierung zeigen, finden Sie hier (zeigt die mathematische Form der Beta 2- Verteilung), mit einem Artikel hier .

Wenn Sie sich nicht im hierarchischen Modellierungskontext befinden, würde ich vorschlagen, den posterioren Wert (oder die von Ihnen erstellten Ergebnisse) zu vergleichen, aber den Jeffreys-Prior für einen Skalenparameter zu verwenden, der durch . Dies kann als Grenze der Beta2-Dichte angelegt werden, da beide Parameter gegen Null konvergieren. Zur Annäherung können Sie kleine Werte verwenden. Aber ich würde versuchen, die Lösungmöglichstanalytischzu erarbeiten (und, wenn keine vollständige analytische Lösung vorhanden ist, bringen Sie die analytische Lösung so weit wie möglich voran), da Sie nicht nur Rechenzeit sparen, sondern dies auch tun wahrscheinlich auchbesserverstehen,was in Ihrem Modell passiert.p(σ)1σ

Eine weitere Alternative ist der Stand der Informationen in der Form von Randbedingungen zu spezifizieren (Mittelwert gleich , Varianz gleich V , IQR die gleich I Q R usw. mit den Werten M , V , I Q R selbst angegeben), und verwenden Sie dann die maximale Entropieverteilung (suchen Sie nach einer Arbeit von Edwin Jaynes oder Larry Bretthorst, um eine gute Erklärung dafür zu erhalten, was maximale Entropie ist und was nicht) in Bezug auf Jeffreys "invariantes Maß" m ( σ ) = 1MVIQRM,V,IQR . m(σ)=1σ

MaxEnt ist die "Rolls Royce" -Version, während die Beta 2 eher eine "Limousine" -Version ist. Der Grund dafür ist, dass die MaxEnt-Distribution vorbehaltlich der von Ihnen festgelegten Einschränkungen "die geringste" annimmt (z. B. bedeutet "keine Einschränkung", dass Sie nur Jeffreys Prior erhalten), während die Beta 2- Distribution möglicherweise einige "versteckte" Funktionen enthält kann in Ihrem speziellen Fall wünschenswert sein oder auch nicht (zB wenn die vorherigen Informationen zuverlässiger sind als die Daten, ist Beta 2 schlecht).

Die andere nette Eigenschaft der MaxEnt-Distribution ist, dass die MaxEnt-Distribution mit überwiegender Wahrscheinlichkeit die Verteilung ist, die Sie sehen werden , wenn im Datenerzeugungsmechanismus keine nicht spezifizierten Einschränkungen vorhanden sind (wir sprechen von einer Quote, die Milliarden und Billionen zu eins übersteigt ). Wenn es sich bei der angezeigten Verteilung nicht um die MaxEnt-Verteilung handelt, gibt es wahrscheinlich zusätzliche Einschränkungen, die Sie beim Ausführen des True-Prozesses nicht angegeben haben , und die beobachteten Werte können einen Hinweis darauf geben, um welche Einschränkung es sich handelt.

Wahrscheinlichkeitslogik
quelle
@ probabilityislogic Schöne Antwort. Wissen Sie, wo ich die Papiere finde, die Sie im dritten Absatz erwähnen? Die Links funktionieren nicht.
1
Eine, die für das Papier funktioniert, ist hier . Es war auf einer Konferenz "Objective Bayes 09" Website (die Valencia-Treffen). Ich glaube nicht, dass die Folien mehr verfügbar sein werden, da die Website für die Konferenz heruntergefahren wurde ... :( Schade, es war eine gute Reihe von Folien. Dieser Hufeisen-Vorgänger sieht in dem von Ihnen bereitgestellten Link interessant aus.
Wahrscheinlichkeitslogik
Beta2
@Procrastinator Bin ich zu Recht davon ausgegangen, dass Sie nur richtige Prioren wollen? Sie haben es nicht gesagt, aber wenn Sie unzulässige Priors zulassen, würden die bereits erwähnten Priors von Jeffreys funktionieren, und ich könnte Jeffreys Wahrscheinlichkeitstheorie, Bücher von Dennis Lindley oder die von Statistics Encyclopedia zitieren. Die Art und Weise, wie die Anfrage mit Google überprüft werden kann, um die Antwort zu finden, und wenn sie nicht gefunden werden kann, enthält die Literatur wahrscheinlich nichts anderes als die von Ihnen ausgeschlossenen.
Michael R. Chernick
@MichaelChernick Ja, du hast recht, ich interessiere mich nur für die richtigen Prioren. Der Grund dafür ist, dass für richtige Vorgänger (1) die Existenz des Vorgängers nicht auf bestimmte Modelle beschränkt ist und (2) ich prüfen wollte, ob ich keinen anderen interessanten Vorschlag verpasse. Ich stimme Ihnen zu, dass es den Anschein hat, als seien Gelmans, Pericchis und Gammas die beliebtesten in der Literatur, aber ich habe auch festgestellt, dass es eine Tendenz gibt, Priors mit schwerem Schwanz vorzuschlagen, um "robuste" Schlussfolgerungen zu ziehen.
13

Das folgende Papier von Daniels vergleicht eine Vielzahl von Schrumpfungsprioren hinsichtlich der Varianz. Dies sind richtige Prioren, aber ich bin mir nicht sicher, wie viele man als nicht informativ bezeichnen könnte, wenn überhaupt. Er liefert aber auch eine Liste nicht informativer Prioritäten (nicht alle korrekt). Unten ist die Referenz.

MJ Daniels (1999), A-Prior für die Varianz in hierarchischen Modellen , Canadian J. Stat. vol. 27, nein. 3, S. 567–578.

Priors

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Ein weiteres neueres Papier in einem verwandten Bereich ist das Folgende.

A. Gelman (2006), Frühere Verteilungen für Varianzparameter in hierarchischen Modellen , Bayesian Analysis , vol. 1, nein. 3, S. 515–533.

Michael R. Chernick
quelle
2
(+1) Dies ist ein guter Fund. Ich habe einen stabilen Link zum Artikel von Daniels sowie einen weiteren Verweis hinzugefügt, der ihn zu ergänzen scheint.
Kardinal
4

(Die Frage ist abgestanden, aber das Problem ist nicht)

Persönlich denke ich, dass Ihre Intuition einen Sinn ergibt. Das heißt, wenn Sie die mathematische Ordnung der Konjugation nicht benötigen, sollten Sie unabhängig von der Verteilung, die Sie für einen Standortparameter verwenden würden, dieselbe für das Protokoll eines Skalenparameters verwenden. Sie sagen also: Verwenden Sie das Äquivalent eines normalen Prior.

Würden Sie tatsächlich einen normalen Prior für einen Standortparameter verwenden? Die meisten Leute würden sagen, dass es aus Gründen, die in den anderen Antworten hier erläutert werden, wahrscheinlich ein bisschen "zu dogmatisch" ist (unbegrenzter Einfluss), es sei denn, Sie machen die Varianz groß. Eine Ausnahme wäre, wenn Sie empirische Untersuchungen durchführen. Das heißt, Sie verwenden Ihre Daten, um die Parameter Ihres Vorgängers abzuschätzen.

Wenn Sie "schwach informativ" sein möchten, würden Sie wahrscheinlich eine Distribution mit dickeren Schwänzen wählen. die offensichtlichen Kandidaten sind t-Verteilungen. Gelmans neuester Rat scheint zu sein, mit df von 3-7 zu verwenden. (Beachten Sie, dass der Link auch meinen Vorschlag unterstützt, dass Sie dasselbe für das Protokoll der Skalierung tun möchten, das Sie für den Standort tun würden.) Sie könnten also anstelle eines Protokollnormalen ein Protokoll-student-t verwenden. Um dies in Stan zu erreichen, könnten Sie Folgendes tun:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Ich denke jedoch, dass wenn der obige Code zu komplex für Sie ist, Sie wahrscheinlich mit einem lognormalen Prior mit zwei Vorbehalten davonkommen könnten. Machen Sie zunächst die Varianz dieses Prior ein paar Mal breiter als Ihre grobe Vermutung, wie "unsicher Sie sind"; Sie möchten einen schwach informativen Prior, keinen stark informativen. Und zweitens: Wenn Sie Ihr Modell angepasst haben, überprüfen Sie den hinteren Median des Parameters und stellen Sie sicher, dass das Protokoll nicht zu weit von der Mitte des Protokollnormalen entfernt ist. "Nicht zu weit" bedeutet wahrscheinlich: weniger als zwei Standardabweichungen und vorzugsweise nicht viel mehr als eine SD.

Jameson Quinn
quelle
2

Bei hierarchischen Modellskalenparametern habe ich mich meistens an Andrew Gelmans Vorschlag orientiert , eine gefaltete, nichtzentrale t-Verteilung zu verwenden. Das hat bei mir ganz ordentlich geklappt.

John Salvatier
quelle