Geschichte der uninformativen Theorie

Ich schreibe einen kurzen theoretischen Aufsatz für einen Bayesian Statistics-Kurs (in einem Economics M.Sc.) über nicht-informative Prioritäten und versuche zu verstehen, welche Schritte zur Entwicklung dieser Theorie erforderlich sind.

Mittlerweile besteht meine Zeitleiste aus drei Hauptschritten: Laplace-Gleichgültigkeitsprinzip (1812), Nicht-invariante Prioritäten (Jeffreys (1946)), Bernardo-Referenz vor (1979).

Aus meiner Literaturrecherche habe ich verstanden, dass das Gleichgültigkeitsprinzip (Laplace) das erste Instrument war, das zur Darstellung fehlender vorheriger Informationen verwendet wurde, aber das fehlende Erfordernis der Invarianz führte zu seiner Aufgabe bis in die 40er Jahre, als Jeffreys seine Methode einführte, die das hat gewünschte Eigenschaft der Invarianz. Das Entstehen von Paradoxien der Marginalisierung aufgrund der unachtsamen Verwendung unkorrekter Inhalte in den 70er Jahren veranlasste Bernardo, seine Referenztheorie zu erarbeiten, um dieses Problem anzugehen.

Beim Lesen der Literatur zitiert jeder Autor unterschiedliche Beiträge: Jaynes 'maximale Entropie, Box und Tiaos datenübersetzte Wahrscheinlichkeit, Zellner, ...

Was sind Ihrer Meinung nach die entscheidenden Schritte, die mir fehlen?

BEARBEITEN : Ich füge meine (Haupt-) Referenzen hinzu, wenn jemand braucht:

1) Die Auswahl von Prior durch formelle Regeln, Kass, Wasserman

2) Ein Katalog von nicht informativen Prioren, Yang, Berger

3) Nicht-informative Bayesianische Priorinterpretation und Probleme mit Konstruktion und Anwendungen

bayesian references prior history PhDing
quelle

Wenn Sie diesen theoretischen Aufsatz fertiggestellt haben, möchten Sie ihn hier verlinken?

Nikolas Rieble

Es wäre toll, wenn Sie eine Antwort auf Ihre eigene Frage geben könnten, die Ihre These zusammenfasst.

Tim

Ich habe diesen Artikel schon einmal verlinkt, aber die epische Geschichte der maximalen Wahrscheinlichkeit deckt die historische "Lücke" zwischen Laplace und Jeffrey ab: In dieser Zeit wiesen die Arbeiten von Gauss, Hotelling, Fisher, Bernoulli und anderen auf eine maximale Wahrscheinlichkeit hin.

AdamO

@alessandro beschreibt, wie der Laplace-Ansatz im Grunde genommen ein Jahrhundert lang beibehalten wurde, nachdem Gauß einheitliche Drucke entwickelt und verwendet hatte (indem er sie als nicht informativ ansah). Pearson und Kristine Smith lehnten ML ab, weil die resultierende Folgerung sich nicht mit Wahrscheinlichkeiten befasste, wie es ein Bayesianer wünschen würde.

AdamO

Minute (pedantisch, wenn Sie möchten), aber möglicherweise nützlicher Punkt: Jeffreys = (Professor Sir) Harold Jeffreys, britischer Angewandter Mathematiker, Geophysiker und vieles mehr; Vor 40 Jahren erklärte er mir in einem Brief, er bevorzuge die besitzergreifenden Jeffreys, weil Jeffreys der Mutation gegenüber den völlig falschen Jeffreys anfällig sei. Oben haben wir ein Beispiel! (Es hilft nicht, dass Richard C. Jeffrey, amerikanischer Philosoph, eine ganz andere Person, auch über Wahrscheinlichkeit schrieb.)

Nick Cox

Antworten:

Was Sie vermissen, ist die frühe Geschichte. Sie können die Arbeit von Fienberg (2006) nachlesen. Wann wurde Bayesian Inference "Bayesian"? . Zunächst bemerkt er, dass Thomas Bayes der erste war, der vorschlug, eine Uniform zu tragen:

$\theta$

Pierre Simon Laplace war der nächste, der darüber diskutierte:

$\theta$

$f (θ ∣ x_{1}, x_{2}, \dots, x_{n}) \propto f (x_{1}, x_{2}, \dots, x_{n} ∣ θ)$ $f(\theta\mid x_1,x_2,\dots,x_n) \propto f(x_1,x_2,\dots,x_n\mid\theta)$
$\theta$

Darüber hinaus bezog sich Carl Friedrich Gauss auch auf die Verwendung eines nicht informativen Prior, wie David und Edwards (2001) in ihrem Buch Annotated Readings in the History of Statistics bemerkten :

$h$

$f (h | x) \propto f (x | h)$ $f(h|x) \propto f(x|h)$
$h$ $[0, \infty)$

und wie Fienberg (2006) feststellt, war "inverse Wahrscheinlichkeit" (und was folgt, unter Verwendung einheitlicher Prioritäten) um die Wende des 19. Jahrhunderts populär

$t$ $\mu$ $\mu$ $h =\sigma^{-1}$

Die Frühgeschichte des Bayes'schen Ansatzes wird auch von Stigler (1986) in seinem Buch Die Geschichte der Statistik: Die Messung der Unsicherheit vor 1900 besprochen .

In Ihrer kurzen Rezension scheinen Sie auch Ronald Aylmer Fisher nicht zu erwähnen (erneut zitiert nach Fienberg, 2006):

Fisher entfernte sich von den inversen Methoden und wandte sich seiner eigenen Herangehensweise an die Folgerung zu, die er als "Wahrscheinlichkeit" bezeichnete. Ein Konzept, das er für verschieden von der Wahrscheinlichkeit hielt. Aber Fischers Fortschritt in dieser Hinsicht war langsam. Stigler (164) hat darauf hingewiesen, dass Fisher in einem unveröffentlichten Manuskript aus dem Jahr 1916 nicht zwischen Wahrscheinlichkeit und umgekehrter Wahrscheinlichkeit mit einem flachen Prior unterschied, obwohl er später die Unterscheidung getroffen hatte, die er zu diesem Zeitpunkt verstanden zu haben behauptete.

Jaynes (1986) lieferte seine eigene kurze Übersichtsarbeit Bayesian Methods: General Background. Ein Einführungs-Tutorial , das Sie überprüfen können, das sich jedoch nicht auf nicht informative Prioritäten konzentriert. Darüber hinaus sollten Sie, wie von AdamO festgestellt , unbedingt lesen die epische Geschichte der maximalen Wahrscheinlichkeit von Stigler (2007).

Erwähnenswert ist auch, dass es keinen "uninformativen Prior" gibt , so dass viele Autoren es vorziehen, von "vagen Prioren" zu sprechen. oder "wöchentlichen informativen Prioren" zu .

Eine theoretische Übersicht bieten Kass und Wasserman (1996) in Die Auswahl früherer Verteilungen nach formalen Regeln , in denen die Auswahl von Prioritäten detaillierter beschrieben wird, wobei die Verwendung nichtinformativer Prioritäten ausführlicher erörtert wird.

Tim
quelle

Das war die Art von Antwort, nach der ich gesucht habe. Vielen Dank!

PhDing

Ich denke, Fienberg hat den Stolz der Bayesianer zu weit gedehnt. Ich persönlich mag es nicht, "inverse Wahrscheinlichkeit" zu verwenden, um etwas zu definieren, da es nicht mit dem von Adler und Taylor vorgeschlagenen integralen Geometriebild in Einklang zu stehen scheint. Jedes gute statistische Verfahren sollte seine mathematische Entsprechung haben, die inverse Wahrscheinlichkeit ist so verdreht, dass Sie es kaum analysieren können, wenn das Problem meiner Erfahrung nach etwas empfindlicher ist.

Henry.L

@ Henry.L ... trotzdem ist es ein Teil der Geschichte des statistischen Denkens :) Beachten Sie auch, dass nicht nur Fienberg solche Beispiele liefert. Der ganze Anti-Inverse-Wahrscheinlichkeits- und Anti-Bayes-Rebell begann, weil er ziemlich populär wurde.

Tim

@Tim Ja, ich denke, das ist es, was Thomas Kuhn "Verschiebung des Schemas" nannte und auch als "... Gegner sterben irgendwann und eine neue Generation wird erwachsen" bezeichnet :)).

Henry.L

Ein paar Kommentare zu Fehlern bei nicht informativen Prioren (nicht informativen Prioren) sind wahrscheinlich eine gute Idee, da die Untersuchung solcher Fehler zur Entwicklung des Konzepts der nicht informativen Prioren in der Geschichte beigetragen hat.

Möglicherweise möchten Sie einige Kommentare zu den Nachteilen / Fehlern bei der Übernahme nicht informativer Prioritäten hinzufügen. Unter vielen Kritikpunkten weise ich auf zwei hin.

(1) Im Allgemeinen weist die Übernahme nicht informativer Prioritäten Konsistenzprobleme auf, insbesondere wenn die Modellverteilung ein multimodales Verhalten aufweist.

Dieses Problem betrifft nicht nur nicht informative Vorgänger, sondern wird auch von vielen anderen Bayes'schen Verfahren, auf die im folgenden Papier zusammen mit ihren Diskussionen hingewiesen wird, geteilt.

Diaconis, Persi und David Freedman. "Über die Konsistenz von Bayes-Schätzungen." Die Annalen der Statistik (1986): 1-26.

Heutzutage ist der nicht-informative Prior kein Forschungsschwerpunkt mehr. Es scheint, dass es mehr Interesse an flexibleren Prioritäten bei nichtparametrischen Einstellungen gibt. Beispiele sind der Gauß-Prozess nach dem nichtparametrischen Bayes-Verfahren oder ein flexibles Modell wie eine Mischung von Dirichlet-Priors wie in

Antoniak, Charles E. "Mischungen von Dirichlet-Prozessen mit Anwendungen auf Bayes'sche nichtparametrische Probleme." Die Annalen der Statistik (1974): 1152-1174.

Aber wieder hat ein solcher Prior seine eigenen Konsistenzprobleme.

(2) Die meisten sogenannten "nicht informativen Prioritäten" sind nicht genau definiert.

Dies ist wahrscheinlich das offensichtlichste Problem, das mit nicht informativen Prioren während ihrer Entwicklung verbunden ist.

Ein Beispiel ist, dass die Definition der Grenze von nicht informativem Prior als Grenze einer Folge von richtigen Prioren zu einem Marginalisierungsparadoxon führt. Wie Sie erwähnt haben, hat Bernardos Referenzprior auch das Problem, dass Berger nie bewiesen hat, dass seine formale Definition unabhängig von seiner Konstruktion / Unterteilung ist. Siehe die Diskussion in

Berger, James O., José M. Bernardo und Dongchu Sun. "Die formale Definition von Referenzprioren." Die Annalen der Statistik (2009): 905-938.

Eine genau definierte beste Definition von Jeffreys 'Prior ist, dass er so gewählt wird, dass er unter bestimmten Parallelübersetzungen über die Riemannsche Mannigfaltigkeit, die mit der Fisher-Informationsmetrik ausgestattet ist, unveränderlich ist, aber selbst das löst das erste Problem nicht.

Vielleicht möchten Sie auch meine Erklärung zum Marginalisierungsparadox lesen .

Henry.L
quelle

Dies ist ein ausgezeichneter Beitrag und keiner von uns hat darüber nachgedacht. Gut gemacht.

Dave Harris

Ich habe einige kleine Änderungen am Ausdruck vorgenommen, ohne zu versuchen, irgendeine Bedeutung oder Implikation zu ändern. Bitte überprüfen Sie, ob Ihre Bedeutung bei der Bearbeitung unveränderlich ist.

Nick Cox

Ich hätte in den Kommentaren gepostet, aber ich glaube, ich habe noch nicht den Ruf. Das einzige, was nicht in den bereits markierten Kommentaren fehlt, ist ein Sonderfall von nicht informativen Vorfahren, deren Herkunft ich gesucht und nicht gefunden habe. Es kann Jeffreys Papier vorangehen.

Für die Normalverteilung habe ich die Cauchy-Verteilung als nicht informativen Vorgänger für Daten mit normaler Wahrscheinlichkeit gesehen. Der Grund ist, dass die Genauigkeit der Cauchy-Verteilung Null ist, wobei die Genauigkeit eins geteilt durch die Varianz ist. Es schafft eine ziemlich eigenartige Reihe von widersprüchlichen Konzepten.

Die Formel für den Cauchy lautet

\frac{1}{π} \frac{Γ}{Γ^{2} + (x - μ)^{2}} .

$\frac{1}{\pi}\frac{\Gamma}{\Gamma^2+(x-\mu)^2}.$

Abhängig davon, wie Sie das Integral definieren, gibt es entweder keine definierte Varianz oder es geht ins Unendliche um den Median, was impliziert, dass die Genauigkeit auf Null geht. Bei der konjugierten Aktualisierung, die hier nicht zutreffen würde, fügen Sie die gewichteten Präzisionen hinzu. Ich denke deshalb ist diese Vorstellung von einem richtigen Prior mit einer vollkommen ungenauen Dichte entstanden. Es ist auch äquivalent zu Student's t mit einem Freiheitsgrad, der auch die Quelle sein könnte.

Dies ist eine seltsame Idee in dem Sinne, dass die Cauchy-Verteilung ein genau definiertes Ortszentrum und einen Bereich zwischen den Quartilen aufweist $2\Gamma$ .

Die beiden frühesten Verweise auf die Cauchy-Verteilung gelten als Wahrscheinlichkeitsfunktionen. Der erste in einem Brief von Poisson an Laplace als Ausnahme zum zentralen Grenzwertsatz. Der zweite war ein Artikel in einer Zeitschrift aus dem Jahr 1851 in einem Kampf zwischen Bienayme und Cauchy um die Gültigkeit gewöhnlicher kleinster Quadrate.

Ich habe bereits in den 1980er Jahren Hinweise auf seine Verwendung als nicht informatives Dokument gefunden, kann jedoch keinen ersten Artikel oder kein erstes Buch finden. Ich habe auch keinen Beweis dafür gefunden, dass es nicht aussagekräftig ist. Ich habe ein Zitat zu Jeffreys 'Buch über Wahrscheinlichkeitstheorie von 1961 gefunden, aber ich habe das Buch nie per Fernleihe angefordert.

Es kann einfach schwach informativ sein. Der Bereich mit der höchsten Dichte von 99,99% ist 1272 Semi-Interquartil-Bereiche breit.

Ich hoffe, es hilft. Es ist ein seltsamer Sonderfall, aber Sie sehen, dass er in einer Reihe von Regressionspapieren auftaucht. Es erfüllt die Anforderungen für eine Bayes-Aktion, indem es eine ordnungsgemäße Priorisierung vornimmt und dabei die Position und den Maßstab minimal beeinflusst.

Dave Harris
quelle