Ich habe Log-Normalverteilungen als frühere Verteilungen für Skalenparameter verwendet (für Normalverteilungen, t-Verteilungen usw.), wenn ich eine ungefähre Vorstellung davon habe, wie die Skala aussehen soll, mich aber irren möchte, wenn ich sage, dass ich es nicht weiß viel darüber. Ich benutze es, weil die Verwendung für mich intuitiv sinnvoll ist, aber ich habe nicht gesehen, dass andere es verwenden. Gibt es versteckte Gefahren?
distributions
bayesian
modeling
prior
maximum-entropy
John Salvatier
quelle
quelle
Antworten:
Ich würde empfehlen, eine "Beta-Verteilung der zweiten Art" (kurz Beta 2 ) für eine leicht informative Verteilung zu verwenden und die konjugierte inverse Gamma-Verteilung zu verwenden, wenn Sie starke Vorurteile haben. Der Grund, warum ich dies sage, ist, dass der konjugierte Prior in dem Sinne nicht robust ist, dass, wenn der Prior und der Datenkonflikt bestehen, der Prior einen uneingeschränkten Einfluss auf die posteriore Verteilung hat. Ein solches Verhalten würde ich als "dogmatisch" bezeichnen und nicht durch milde vorherige Informationen gerechtfertigt .
Die Eigenschaft, die die Robustheit bestimmt, ist das Schwanzverhalten des Prior und der Wahrscheinlichkeit. Ein sehr guter Artikel mit den technischen Details ist hier . Zum Beispiel kann eine Wahrscheinlichkeit so gewählt werden (sagen wir eine t-Verteilung), dass sie als Beobachtung (dh willkürlich groß wird) aus der Analyse eines Standortparameters gestrichen wird (ähnlich wie Sie es intuitiv tun würden) mit einer solchen Beobachtung zu tun). Die Rate des "Verwerfens" hängt davon ab, wie schwer die Schwänze der Verteilung sind.yi→∞
Einige Folien, die eine Anwendung im Kontext der hierarchischen Modellierung zeigen, finden Sie hier (zeigt die mathematische Form der Beta 2- Verteilung), mit einem Artikel hier .
Wenn Sie sich nicht im hierarchischen Modellierungskontext befinden, würde ich vorschlagen, den posterioren Wert (oder die von Ihnen erstellten Ergebnisse) zu vergleichen, aber den Jeffreys-Prior für einen Skalenparameter zu verwenden, der durch . Dies kann als Grenze der Beta2-Dichte angelegt werden, da beide Parameter gegen Null konvergieren. Zur Annäherung können Sie kleine Werte verwenden. Aber ich würde versuchen, die Lösungmöglichstanalytischzu erarbeiten (und, wenn keine vollständige analytische Lösung vorhanden ist, bringen Sie die analytische Lösung so weit wie möglich voran), da Sie nicht nur Rechenzeit sparen, sondern dies auch tun wahrscheinlich auchbesserverstehen,was in Ihrem Modell passiert.p(σ)∝1σ
Eine weitere Alternative ist der Stand der Informationen in der Form von Randbedingungen zu spezifizieren (Mittelwert gleich , Varianz gleich V , IQR die gleich I Q R usw. mit den Werten M , V , I Q R selbst angegeben), und verwenden Sie dann die maximale Entropieverteilung (suchen Sie nach einer Arbeit von Edwin Jaynes oder Larry Bretthorst, um eine gute Erklärung dafür zu erhalten, was maximale Entropie ist und was nicht) in Bezug auf Jeffreys "invariantes Maß" m ( σ ) = 1M V IQR M,V,IQR . m(σ)=1σ
MaxEnt ist die "Rolls Royce" -Version, während die Beta 2 eher eine "Limousine" -Version ist. Der Grund dafür ist, dass die MaxEnt-Distribution vorbehaltlich der von Ihnen festgelegten Einschränkungen "die geringste" annimmt (z. B. bedeutet "keine Einschränkung", dass Sie nur Jeffreys Prior erhalten), während die Beta 2- Distribution möglicherweise einige "versteckte" Funktionen enthält kann in Ihrem speziellen Fall wünschenswert sein oder auch nicht (zB wenn die vorherigen Informationen zuverlässiger sind als die Daten, ist Beta 2 schlecht).
Die andere nette Eigenschaft der MaxEnt-Distribution ist, dass die MaxEnt-Distribution mit überwiegender Wahrscheinlichkeit die Verteilung ist, die Sie sehen werden , wenn im Datenerzeugungsmechanismus keine nicht spezifizierten Einschränkungen vorhanden sind (wir sprechen von einer Quote, die Milliarden und Billionen zu eins übersteigt ). Wenn es sich bei der angezeigten Verteilung nicht um die MaxEnt-Verteilung handelt, gibt es wahrscheinlich zusätzliche Einschränkungen, die Sie beim Ausführen des True-Prozesses nicht angegeben haben , und die beobachteten Werte können einen Hinweis darauf geben, um welche Einschränkung es sich handelt.
quelle
Das folgende Papier von Daniels vergleicht eine Vielzahl von Schrumpfungsprioren hinsichtlich der Varianz. Dies sind richtige Prioren, aber ich bin mir nicht sicher, wie viele man als nicht informativ bezeichnen könnte, wenn überhaupt. Er liefert aber auch eine Liste nicht informativer Prioritäten (nicht alle korrekt). Unten ist die Referenz.
Priors
Ein weiteres neueres Papier in einem verwandten Bereich ist das Folgende.
quelle
(Die Frage ist abgestanden, aber das Problem ist nicht)
Persönlich denke ich, dass Ihre Intuition einen Sinn ergibt. Das heißt, wenn Sie die mathematische Ordnung der Konjugation nicht benötigen, sollten Sie unabhängig von der Verteilung, die Sie für einen Standortparameter verwenden würden, dieselbe für das Protokoll eines Skalenparameters verwenden. Sie sagen also: Verwenden Sie das Äquivalent eines normalen Prior.
Würden Sie tatsächlich einen normalen Prior für einen Standortparameter verwenden? Die meisten Leute würden sagen, dass es aus Gründen, die in den anderen Antworten hier erläutert werden, wahrscheinlich ein bisschen "zu dogmatisch" ist (unbegrenzter Einfluss), es sei denn, Sie machen die Varianz groß. Eine Ausnahme wäre, wenn Sie empirische Untersuchungen durchführen. Das heißt, Sie verwenden Ihre Daten, um die Parameter Ihres Vorgängers abzuschätzen.
Wenn Sie "schwach informativ" sein möchten, würden Sie wahrscheinlich eine Distribution mit dickeren Schwänzen wählen. die offensichtlichen Kandidaten sind t-Verteilungen. Gelmans neuester Rat scheint zu sein, mit df von 3-7 zu verwenden. (Beachten Sie, dass der Link auch meinen Vorschlag unterstützt, dass Sie dasselbe für das Protokoll der Skalierung tun möchten, das Sie für den Standort tun würden.) Sie könnten also anstelle eines Protokollnormalen ein Protokoll-student-t verwenden. Um dies in Stan zu erreichen, könnten Sie Folgendes tun:
Ich denke jedoch, dass wenn der obige Code zu komplex für Sie ist, Sie wahrscheinlich mit einem lognormalen Prior mit zwei Vorbehalten davonkommen könnten. Machen Sie zunächst die Varianz dieses Prior ein paar Mal breiter als Ihre grobe Vermutung, wie "unsicher Sie sind"; Sie möchten einen schwach informativen Prior, keinen stark informativen. Und zweitens: Wenn Sie Ihr Modell angepasst haben, überprüfen Sie den hinteren Median des Parameters und stellen Sie sicher, dass das Protokoll nicht zu weit von der Mitte des Protokollnormalen entfernt ist. "Nicht zu weit" bedeutet wahrscheinlich: weniger als zwei Standardabweichungen und vorzugsweise nicht viel mehr als eine SD.
quelle
Bei hierarchischen Modellskalenparametern habe ich mich meistens an Andrew Gelmans Vorschlag orientiert , eine gefaltete, nichtzentrale t-Verteilung zu verwenden. Das hat bei mir ganz ordentlich geklappt.
quelle