Nach meinem Verständnis sollten wir nicht zulassen, dass derselbe Datensatz, den wir analysieren, bestimmt / definiert, wie die vorherigen Verteilungen in einer Bayes'schen Analyse aussehen. Insbesondere ist es unangemessen, frühere Verteilungen für eine Bayes'sche Analyse basierend auf zusammenfassenden Statistiken aus demselben Datensatz zu definieren, an den Sie dann die Prioritäten verwenden, um die Anpassung eines Modells zu erleichtern.
Kennt jemand zufällig Ressourcen, die dies speziell als unangemessen erörtern? Ich brauche einige Zitate für dieses Problem.
Antworten:
Ja, dies ist unangemessen, da dieselben Daten zweimal verwendet werden, was zu fälschlicherweise zu sicheren Ergebnissen führt. Dies wird als "doppeltes Eintauchen" bezeichnet.
Als Referenz würde ich mit Carlin und Louis (2000) beginnen. Obwohl "Double Dipping" eine der Hauptkritikpunkte von Empirical Bayes war, hat Ch. 3, insbesondere Abschnitt 3.5, dieses Buches beschreibt Möglichkeiten zur Schätzung geeigneter Konfidenzintervalle unter Verwendung des EB-Ansatzes.
Berger J (2006). Der Fall für die objektive Bayes'sche Analyse. "Bayes'sche Analyse, 1 (3), 385 {402
Bradley P. Carlin, Thomas A. Louis 2000. Bayes- und empirische Bayes-Methoden zur Datenanalyse.
Darniede, WF 2011. Bayesianische Methoden für datenabhängige Priors. Diplomarbeit, Ohio State Univ.
Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2003), Bayesian Data Analysis, 2. Auflage (Chapman & Hall / CRC-Texte in Statistical Science), Chapman und Hall / CRC, 2. Auflage ed.
quelle
Es kann jedoch sinnvoll sein, die Daten zum Erstellen des Prior zu verwenden.
Ein Beispiel für die Modellierung von Gemischen finden Sie bei Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667
Sie verwenden den Mittelwert und den Bereich der Datenpunkte als Hyperparameter für den Prior und es ist absolut sinnvoll.
Das Problem der zweimaligen Verwendung der Daten tritt meiner Meinung nach auf, wenn aus den Daten ein informativer Prior abgeleitet wird.
Solange Sie überprüfen, ob Ihre vorherige Verteilung "flach" ist, wo die hintere Verteilung ihren Höhepunkt erreicht, wissen Sie, dass Ihre vorherige Verteilung keinen starken Einfluss auf die Ergebnisse hat.
quelle