Erlauben Sie Daten, die Prioritäten zu diktieren, und führen Sie das Modell dann mit diesen Prioritäten aus? (z. B. datengesteuerte Prioritäten aus demselben Datensatz)

9

Nach meinem Verständnis sollten wir nicht zulassen, dass derselbe Datensatz, den wir analysieren, bestimmt / definiert, wie die vorherigen Verteilungen in einer Bayes'schen Analyse aussehen. Insbesondere ist es unangemessen, frühere Verteilungen für eine Bayes'sche Analyse basierend auf zusammenfassenden Statistiken aus demselben Datensatz zu definieren, an den Sie dann die Prioritäten verwenden, um die Anpassung eines Modells zu erleichtern.

Kennt jemand zufällig Ressourcen, die dies speziell als unangemessen erörtern? Ich brauche einige Zitate für dieses Problem.

Sarah
quelle

Antworten:

11

Ja, dies ist unangemessen, da dieselben Daten zweimal verwendet werden, was zu fälschlicherweise zu sicheren Ergebnissen führt. Dies wird als "doppeltes Eintauchen" bezeichnet.

Als Referenz würde ich mit Carlin und Louis (2000) beginnen. Obwohl "Double Dipping" eine der Hauptkritikpunkte von Empirical Bayes war, hat Ch. 3, insbesondere Abschnitt 3.5, dieses Buches beschreibt Möglichkeiten zur Schätzung geeigneter Konfidenzintervalle unter Verwendung des EB-Ansatzes.

Berger J (2006). Der Fall für die objektive Bayes'sche Analyse. "Bayes'sche Analyse, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Bayes- und empirische Bayes-Methoden zur Datenanalyse.

Darniede, WF 2011. Bayesianische Methoden für datenabhängige Priors. Diplomarbeit, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2003), Bayesian Data Analysis, 2. Auflage (Chapman & Hall / CRC-Texte in Statistical Science), Chapman und Hall / CRC, 2. Auflage ed.

David LeBauer
quelle
@sarah Bitte registrieren Sie Ihr Konto, damit Sie Ihre Frage zurückfordern können. Besuchen Sie einfach diese URL: stats.stackexchange.com/users/login
1

Es kann jedoch sinnvoll sein, die Daten zum Erstellen des Prior zu verwenden.

Ein Beispiel für die Modellierung von Gemischen finden Sie bei Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Sie verwenden den Mittelwert und den Bereich der Datenpunkte als Hyperparameter für den Prior und es ist absolut sinnvoll.

Das Problem der zweimaligen Verwendung der Daten tritt meiner Meinung nach auf, wenn aus den Daten ein informativer Prior abgeleitet wird.

Solange Sie überprüfen, ob Ihre vorherige Verteilung "flach" ist, wo die hintere Verteilung ihren Höhepunkt erreicht, wissen Sie, dass Ihre vorherige Verteilung keinen starken Einfluss auf die Ergebnisse hat.

Pierre
quelle
Die Verwendung der Daten zum Erstellen des Prior kann nicht innerhalb des Bayes'schen Paradigmas erfolgen. Aus Bayes'scher Sicht ist dies also nicht sinnvoll, und die übliche Validierung von Bayes'schen Verfahren findet keine Anwendung. Die resultierende Folgerung mag vollkommen gültig sein, aber man muss sie anhand der ersten Prinzipien demonstrieren. (Richardson und Green verwenden sogenannte empirische Bayes. Dies ist kein Bayes'sches Verfahren.)
Xi'an
Während es innerhalb des Bayes'schen Paradigmas keinen Sinn macht, ist es manchmal schwierig, die Trennlinie zwischen dem, was Daten sind und dem, was vorher ist, zu ziehen. Siehe meine Antwort auf stats.stackexchange.com/questions/112451/…
kjetil b halvorsen