Bei der Bayes'schen Inferenz maximieren wir unsere Wahrscheinlichkeitsfunktion in Kombination mit den Prioritäten, die wir für die Parameter haben. Da die Log-Wahrscheinlichkeit praktischer ist, maximieren wir effektiv Verwendung einer MCMC oder auf andere Weise, die die hinteren Verteilungen generiert (unter Verwendung eines PDFs für die Priorität jedes Parameters und die Wahrscheinlichkeit jedes Datenpunkts).
Wenn wir über eine Menge Daten verfügen, wird die Wahrscheinlichkeit, dass sich daraus Daten ergeben, durch einfache Mathematik überwältigen. Letztendlich ist dies gut und beabsichtigt; wir wissen, dass der posterior nur mit der Wahrscheinlichkeit von mehr Daten konvergieren wird, weil es so sein soll.
Für Probleme, die von konjugierten Vorfahren definiert wurden, ist dies sogar genau nachweisbar.
Gibt es eine Möglichkeit zu entscheiden, wann Prioritäten für eine bestimmte Wahrscheinlichkeitsfunktion und eine bestimmte Stichprobengröße keine Rolle spielen?
Antworten:
So einfach ist das nicht. Informationen in Ihren Daten überwältigen frühere Informationen. Nicht nur Ihre Stichprobengröße ist groß, sondern auch, wenn Ihre Daten genügend Informationen enthalten, um die früheren Informationen zu überdecken. Nicht informative Prioritäten lassen sich leicht von Daten überzeugen, während stark informative Prioritäten widerstandsfähiger sein können. Im Extremfall können Ihre Daten bei schlecht definierten Prioritäten diese möglicherweise überhaupt nicht überwinden (z. B. Nulldichte in bestimmten Regionen).
Recall , dass von Bayes Theorem verwenden wir zwei Informationsquellen im statistischen Modell, out-of-Daten, vor Informationen und Informationen , die von Daten in befördert Likelihood - Funktion:
Bei Verwendung nicht informativer Prioritäten (oder maximaler Wahrscheinlichkeiten) versuchen wir, möglichst wenige Vorinformationen in unser Modell aufzunehmen. Mit informativen Priors bringen wir eine erhebliche Menge an Informationen in das Modell ein. Sowohl die Daten als auch die vorherigen geben uns Auskunft darüber, welche Werte der geschätzten Parameter plausibler oder glaubwürdiger sind. Sie können unterschiedliche Informationen einbringen und in einigen Fällen die jeweils anderen überwältigen.
Lassen Sie mich dies mit einem sehr einfachen Beta-Binomial-Modell veranschaulichen (siehe hier für ein detailliertes Beispiel ). Mit "uninformativem" Vorgänger kann eine ziemlich kleine Stichprobe ausreichen, um sie zu überwältigen. In den Darstellungen unten sehen Sie die Prioritäten (rote Kurve), die Wahrscheinlichkeit (blaue Kurve) und die Posterioren (violette Kurve) desselben Modells mit unterschiedlichen Stichprobengrößen.
Auf der anderen Seite können Sie informative Prioritäten haben, die dem wahren Wert nahe kommen. Dies ist ebenfalls einfach, aber nicht so einfach wie bei wöchentlichen informativen Prioritäten, die von Daten überzeugt werden.
Bei informativen Prioritäten ist der Fall ganz anders, wenn es weit von den Daten entfernt ist (unter Verwendung der gleichen Daten wie im ersten Beispiel). In diesem Fall benötigen Sie eine größere Stichprobe, um den vorherigen zu überwinden.
Es geht also nicht nur um die Stichprobengröße, sondern auch um Ihre Daten und Ihre Prioritäten. Beachten Sie, dass es sich um ein gewünschtes Verhalten, denn wenn informativ priors verwenden wir mögen , um möglicherweise umfasst out-of-Dateninformationen in unserem Modell und das wäre unmöglich, wenn große Proben würden immer die priors verwerfen.
Aufgrund der komplizierten Beziehung zwischen posteriorer Wahrscheinlichkeit und vorheriger Wahrscheinlichkeit ist es immer gut, die posteriore Verteilung zu betrachten und einige posteriore Vorhersageprüfungen durchzuführen (Gelman, Meng und Stern, 1996; Gelman und Hill, 2006; Gelman et al., 2004). Darüber hinaus können Sie, wie von Spiegelhalter (2004) beschrieben, verschiedene Prioritäten verwenden, zum Beispiel "pessimistisch", die Zweifel an großen Effekten ausdrücken, oder "enthusiastisch", die optimistisch in Bezug auf geschätzte Effekte sind. Der Vergleich des Verhaltens verschiedener Priors mit Ihren Daten kann hilfreich sein, um informell zu beurteilen, inwieweit der posterior durch den vorherigen Einfluss beeinflusst wurde.
Spiegelhalter, DJ (2004). Bayesianische Ideen in die Bewertung des Gesundheitswesens einbeziehen. Statistical Science, 156 & ndash; 174.
Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2004). Bayesianische Datenanalyse. Chapman & Hall / CRC.
Gelman, A. und Hill, J. (2006). Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Cambridge University Press.
Gelman, A., Meng, XL und Stern, H. (1996). Posteriore prädiktive Beurteilung der Modelleignung über realisierte Diskrepanzen. Statistica sinica, 733 & ndash; 760.
quelle
Dies ist eigentlich nicht das, was die meisten Praktizierenden als bayesianische Folgerung betrachten. Es ist möglich, Parameter auf diese Weise zu schätzen, aber ich würde es nicht Bayes'sche Folgerung nennen.
In der Bayes'schen Inferenz werden Posteriorverteilungen verwendet, um Posteriorwahrscheinlichkeiten (oder Wahrscheinlichkeitsverhältnisse) für konkurrierende Hypothesen zu berechnen.
Posteriore Verteilungen können empirisch mit Monte-Carlo- oder Markov-Chain-Monte-Carlo-Techniken (MCMC) geschätzt werden.
Abgesehen von diesen Unterscheidungen stellt sich die Frage
hängt immer noch vom Kontext des Problems ab und was Sie interessiert.
Wenn Ihnen die Vorhersage bei einer bereits sehr großen Stichprobe wichtig ist, lautet die Antwort in der Regel Ja, die Prioritäten sind asymptotisch irrelevant *. Wenn Ihnen jedoch die Modellauswahl und das Testen der Bayes'schen Hypothese am Herzen liegen, lautet die Antwort "Nein". Die Prioritäten spielen eine große Rolle und ihr Effekt verschlechtert sich nicht mit der Stichprobengröße.
* Hier gehe ich davon aus, dass die Prioritäten nicht über den durch die Wahrscheinlichkeit implizierten Parameterraum hinaus abgeschnitten / zensiert werden und dass sie nicht so schlecht spezifiziert sind, dass sie in wichtigen Regionen Konvergenzprobleme mit einer Dichte nahe Null verursachen. Mein Argument ist auch asymptotisch, was mit allen üblichen Einschränkungen einhergeht.
Prädiktive Dichte
Modellauswahl und Hypothesentest
Wenn man sich für die Bayes'sche Modellauswahl und das Testen von Hypothesen interessiert, sollte man sich bewusst sein, dass die Wirkung des Prior nicht asymptotisch verschwindet.
quelle
Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.
As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.
And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!
quelle