Ich schreibe einen kurzen theoretischen Aufsatz für einen Bayesian Statistics-Kurs (in einem Economics M.Sc.) über nicht-informative Prioritäten und versuche zu verstehen, welche Schritte zur Entwicklung dieser Theorie erforderlich sind.
Mittlerweile besteht meine Zeitleiste aus drei Hauptschritten: Laplace-Gleichgültigkeitsprinzip (1812), Nicht-invariante Prioritäten (Jeffreys (1946)), Bernardo-Referenz vor (1979).
Aus meiner Literaturrecherche habe ich verstanden, dass das Gleichgültigkeitsprinzip (Laplace) das erste Instrument war, das zur Darstellung fehlender vorheriger Informationen verwendet wurde, aber das fehlende Erfordernis der Invarianz führte zu seiner Aufgabe bis in die 40er Jahre, als Jeffreys seine Methode einführte, die das hat gewünschte Eigenschaft der Invarianz. Das Entstehen von Paradoxien der Marginalisierung aufgrund der unachtsamen Verwendung unkorrekter Inhalte in den 70er Jahren veranlasste Bernardo, seine Referenztheorie zu erarbeiten, um dieses Problem anzugehen.
Beim Lesen der Literatur zitiert jeder Autor unterschiedliche Beiträge: Jaynes 'maximale Entropie, Box und Tiaos datenübersetzte Wahrscheinlichkeit, Zellner, ...
Was sind Ihrer Meinung nach die entscheidenden Schritte, die mir fehlen?
BEARBEITEN : Ich füge meine (Haupt-) Referenzen hinzu, wenn jemand braucht:
1) Die Auswahl von Prior durch formelle Regeln, Kass, Wasserman
2) Ein Katalog von nicht informativen Prioren, Yang, Berger
3) Nicht-informative Bayesianische Priorinterpretation und Probleme mit Konstruktion und Anwendungen
quelle
Antworten:
Was Sie vermissen, ist die frühe Geschichte. Sie können die Arbeit von Fienberg (2006) nachlesen. Wann wurde Bayesian Inference "Bayesian"? . Zunächst bemerkt er, dass Thomas Bayes der erste war, der vorschlug, eine Uniform zu tragen:
Pierre Simon Laplace war der nächste, der darüber diskutierte:
Darüber hinaus bezog sich Carl Friedrich Gauss auch auf die Verwendung eines nicht informativen Prior, wie David und Edwards (2001) in ihrem Buch Annotated Readings in the History of Statistics bemerkten :
und wie Fienberg (2006) feststellt, war "inverse Wahrscheinlichkeit" (und was folgt, unter Verwendung einheitlicher Prioritäten) um die Wende des 19. Jahrhunderts populär
Die Frühgeschichte des Bayes'schen Ansatzes wird auch von Stigler (1986) in seinem Buch Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900 besprochen .
In Ihrer kurzen Rezension scheinen Sie auch Ronald Aylmer Fisher nicht zu erwähnen (erneut zitiert nach Fienberg, 2006):
Jaynes (1986) lieferte seine eigene kurze Übersichtsarbeit Bayesian Methods: General Background. Ein Einführungs-Tutorial , das Sie überprüfen können, das sich jedoch nicht auf nicht informative Prioritäten konzentriert. Darüber hinaus sollten Sie, wie von AdamO festgestellt , unbedingt lesen die epische Geschichte der maximalen Wahrscheinlichkeit von Stigler (2007).
Erwähnenswert ist auch, dass es keinen "uninformativen Prior" gibt , so dass viele Autoren es vorziehen, von "vagen Prioren" zu sprechen. oder "wöchentlichen informativen Prioren" zu .
Eine theoretische Übersicht bieten Kass und Wasserman (1996) in Die Auswahl früherer Verteilungen nach formalen Regeln , in denen die Auswahl von Prioritäten detaillierter beschrieben wird, wobei die Verwendung nichtinformativer Prioritäten ausführlicher erörtert wird.
quelle
Ein paar Kommentare zu Fehlern bei nicht informativen Prioren (nicht informativen Prioren) sind wahrscheinlich eine gute Idee, da die Untersuchung solcher Fehler zur Entwicklung des Konzepts der nicht informativen Prioren in der Geschichte beigetragen hat.
Möglicherweise möchten Sie einige Kommentare zu den Nachteilen / Fehlern bei der Übernahme nicht informativer Prioritäten hinzufügen. Unter vielen Kritikpunkten weise ich auf zwei hin.
(1) Im Allgemeinen weist die Übernahme nicht informativer Prioritäten Konsistenzprobleme auf, insbesondere wenn die Modellverteilung ein multimodales Verhalten aufweist.
Dieses Problem betrifft nicht nur nicht informative Vorgänger, sondern wird auch von vielen anderen Bayes'schen Verfahren, auf die im folgenden Papier zusammen mit ihren Diskussionen hingewiesen wird, geteilt.
Diaconis, Persi und David Freedman. "Über die Konsistenz von Bayes-Schätzungen." Die Annalen der Statistik (1986): 1-26.
Heutzutage ist der nicht-informative Prior kein Forschungsschwerpunkt mehr. Es scheint, dass es mehr Interesse an flexibleren Prioritäten bei nichtparametrischen Einstellungen gibt. Beispiele sind der Gauß-Prozess nach dem nichtparametrischen Bayes-Verfahren oder ein flexibles Modell wie eine Mischung von Dirichlet-Priors wie in
Antoniak, Charles E. "Mischungen von Dirichlet-Prozessen mit Anwendungen auf Bayes'sche nichtparametrische Probleme." Die Annalen der Statistik (1974): 1152-1174.
Aber wieder hat ein solcher Prior seine eigenen Konsistenzprobleme.
(2) Die meisten sogenannten "nicht informativen Prioritäten" sind nicht genau definiert.
Dies ist wahrscheinlich das offensichtlichste Problem, das mit nicht informativen Prioren während ihrer Entwicklung verbunden ist.
Ein Beispiel ist, dass die Definition der Grenze von nicht informativem Prior als Grenze einer Folge von richtigen Prioren zu einem Marginalisierungsparadoxon führt. Wie Sie erwähnt haben, hat Bernardos Referenzprior auch das Problem, dass Berger nie bewiesen hat, dass seine formale Definition unabhängig von seiner Konstruktion / Unterteilung ist. Siehe die Diskussion in
Berger, James O., José M. Bernardo und Dongchu Sun. "Die formale Definition von Referenzprioren." Die Annalen der Statistik (2009): 905-938.
Eine genau definierte beste Definition von Jeffreys 'Prior ist, dass er so gewählt wird, dass er unter bestimmten Parallelübersetzungen über die Riemannsche Mannigfaltigkeit, die mit der Fisher-Informationsmetrik ausgestattet ist, unveränderlich ist, aber selbst das löst das erste Problem nicht.
Vielleicht möchten Sie auch meine Erklärung zum Marginalisierungsparadox lesen .
quelle
Ich hätte in den Kommentaren gepostet, aber ich glaube, ich habe noch nicht den Ruf. Das einzige, was nicht in den bereits markierten Kommentaren fehlt, ist ein Sonderfall von nicht informativen Vorfahren, deren Herkunft ich gesucht und nicht gefunden habe. Es kann Jeffreys Papier vorangehen.
Für die Normalverteilung habe ich die Cauchy-Verteilung als nicht informativen Vorgänger für Daten mit normaler Wahrscheinlichkeit gesehen. Der Grund ist, dass die Genauigkeit der Cauchy-Verteilung Null ist, wobei die Genauigkeit eins geteilt durch die Varianz ist. Es schafft eine ziemlich eigenartige Reihe von widersprüchlichen Konzepten.
Die Formel für den Cauchy lautet
Abhängig davon, wie Sie das Integral definieren, gibt es entweder keine definierte Varianz oder es geht ins Unendliche um den Median, was impliziert, dass die Genauigkeit auf Null geht. Bei der konjugierten Aktualisierung, die hier nicht zutreffen würde, fügen Sie die gewichteten Präzisionen hinzu. Ich denke deshalb ist diese Vorstellung von einem richtigen Prior mit einer vollkommen ungenauen Dichte entstanden. Es ist auch äquivalent zu Student's t mit einem Freiheitsgrad, der auch die Quelle sein könnte.
Dies ist eine seltsame Idee in dem Sinne, dass die Cauchy-Verteilung ein genau definiertes Ortszentrum und einen Bereich zwischen den Quartilen aufweist2 Γ .
Die beiden frühesten Verweise auf die Cauchy-Verteilung gelten als Wahrscheinlichkeitsfunktionen. Der erste in einem Brief von Poisson an Laplace als Ausnahme zum zentralen Grenzwertsatz. Der zweite war ein Artikel in einer Zeitschrift aus dem Jahr 1851 in einem Kampf zwischen Bienayme und Cauchy um die Gültigkeit gewöhnlicher kleinster Quadrate.
Ich habe bereits in den 1980er Jahren Hinweise auf seine Verwendung als nicht informatives Dokument gefunden, kann jedoch keinen ersten Artikel oder kein erstes Buch finden. Ich habe auch keinen Beweis dafür gefunden, dass es nicht aussagekräftig ist. Ich habe ein Zitat zu Jeffreys 'Buch über Wahrscheinlichkeitstheorie von 1961 gefunden, aber ich habe das Buch nie per Fernleihe angefordert.
Es kann einfach schwach informativ sein. Der Bereich mit der höchsten Dichte von 99,99% ist 1272 Semi-Interquartil-Bereiche breit.
Ich hoffe, es hilft. Es ist ein seltsamer Sonderfall, aber Sie sehen, dass er in einer Reihe von Regressionspapieren auftaucht. Es erfüllt die Anforderungen für eine Bayes-Aktion, indem es eine ordnungsgemäße Priorisierung vornimmt und dabei die Position und den Maßstab minimal beeinflusst.
quelle