Was ist ein "uninformativer Prior"? Können wir jemals eine haben, die wirklich keine Informationen hat?

73

Inspiriert von einem Kommentar zu dieser Frage :

Was halten wir in einem Prior für "uninformativ" - und welche Informationen sind in einem vermeintlich uninformativen Prior noch enthalten?

Im Allgemeinen sehe ich den Prior in einer Analyse, bei der es sich entweder um eine Analyse vom Typ eines Frequentisten handelt, bei der versucht wird, einige schöne Teile aus der Bayes'schen Analyse zu entlehnen (sei es eine einfachere Interpretation bis hin zu dem, was man tun muss). Der angegebene Prior ist a Gleichmäßige Verteilung über die Grenzen des Effektmaßes, zentriert auf 0. Aber selbst das gibt eine Form vor, die der vorherigen entspricht - es ist einfach nur flach.

Gibt es eine bessere uninformative vor der Verwendung?

Fomite
quelle
2
Vielleicht werden Sie einen Blick auf das sogenannte Prinzip der maximalen Entropie werfen . Ich habe keine Lust, das in einer vollständigen Antwort auszudehnen - der Wikipedia-Artikel scheint von guter Qualität zu sein. Ich bin ziemlich zuversichtlich, dass einige Mitwirkende so viel besser darauf eingehen werden als ich.
Elvis

Antworten:

93

[Warnung: Als kartentragendes Mitglied der Sektion Objective Bayes der ISBA sind meine Ansichten nicht repräsentativ für alle Bayes-Statistiker! Ganz im Gegenteil ...]

Zusammenfassend lässt sich sagen, dass es keinen Prior gibt, der "wirklich keine Informationen" enthält.

In der Tat ist der "uninformative" Prior leider eine Fehlbezeichnung. Jede vorherige Verteilung enthält eine Spezifikation, die einer bestimmten Menge an Informationen entspricht. Auch (oder gerade) die Uniform vor. In der Tat ist der einheitliche Prior für eine gegebene Parametrisierung des Problems nur flach. Wenn man zu einer anderen Parametrisierung wechselt (sogar zu einer beschränkten), kommt die Jacobi-Änderung der Variablen in das Bild und die Dichte und der Prior ist nicht mehr flach.

Wie von Elvis herausgestellt, ist die maximale Entropie ein Ansatz, der für die Auswahl sogenannter "uninformativer" Prioritäten empfohlen wird. Es erfordert jedoch (a) genügend Informationen zu einigen Zeitpunkten der vorherigen Verteilung , um die Einschränkungen anzugeben , das zum MaxEnt vor und (b) führt die vorläufige Wahl eines Referenzmaßes [in fortlaufenden Einstellungen], eine Wahl, die die Debatte zu ihrem Anfangsstadium zurückbringt! (Zusätzlich wird die Parametrisierung der Nebenbedingungen (dh die Wahl vonπ ( ) Θ h ( θ )h(θ)π()π * ( θ ) α exp { λ T h ( θ ) } d μ ( θ ) h

Θh(θ)dπ(θ)=h0
π(θ)exp{λTh(θ)}
dμ(θ)h) wirkt sich auf die Form des resultierenden MaxEnt vor.)

José Bernardo hat eine originelle Theorie der Referenzprioren erstellt, in der er den Prior auswählt, um die durch die Daten hervorgerufenen Informationen durch Maximierung des Kullback-Abstands zwischen Prior und Posterior zu maximieren. In den einfachsten Fällen ohne störende Parameter ist die Lösung Jeffreys 'Priorität. Bei komplexeren Problemen muss (a) eine Auswahl der interessierenden Parameter (oder sogar eine Rangfolge ihrer interessierenden Reihenfolge) getroffen werden; (b) Die Berechnung des Prior ist ziemlich aufwendig und erfordert eine Folge eingebetteter kompakter Mengen, um Ungenauigkeiten zu vermeiden. (Siehe zB The Bayesian Choice für Details.)

In einer interessanten Wendung haben einige Forscher außerhalb der Bayes'schen Perspektive Verfahren entwickelt, die als Vertrauensverteilungen bezeichnet werden und Wahrscheinlichkeitsverteilungen im Parameterraum sind, die durch Inversion von frequenzbasierten Verfahren ohne explizite vorherige Struktur oder sogar ein dominierendes Maß für diesen Parameterraum konstruiert wurden. Sie argumentieren, dass dieses Fehlen eines genau definierten Prior ein Plus ist, obwohl das Ergebnis definitiv von der Wahl des frequenzbasierten Initialisierungsverfahrens abhängt

Kurz gesagt, es gibt keine "beste" (oder sogar "bessere") Wahl für "den" "nicht informativen" Prior. Und ich bin der Meinung, dass dies so sein sollte, da die Entscheidung für die vorherige Verteilung aufgrund der Natur der Bayes'schen Analyse von Bedeutung ist. Und dass es keinen Vergleich von Prioren gibt: Man kann nicht "besser" sein als ein anderer. (Zumindest vor der Beobachtung der Daten: Sobald sie einmal beobachtet wurden, wird der Vergleich der Prioritäten zur Modellwahl.) José Bernardo, Jim Berger, Dongchu Sun und viele andere "objektive" Bayesianer folgern, dass es ungefähr gleichwertige Referenzprimären gibt, die man haben kann Verwenden Sie diese Option, wenn Sie sich nicht sicher sind, welche Informationen Sie zuvor erhalten haben, oder wenn Sie nach einer Bayes'schen Referenz suchen. Einige dieser Prioritäten werden teilweise durch informationstheoretische Argumente gestützt.

Xi'an
quelle
14
(+1) Dein Buch? Verdammt. Ich habe also 387 Fragen an Sie :)
Elvis
4
(+1) Für ein Ziel (nicht weniger!), Einfache Antwort.
Kardinal
2
+1 Vielen Dank für einen guten und gut informierten Überblick über die Probleme.
whuber
2
Eine hervorragende Antwort. Danke. Und noch ein Buch auf der Wunschliste.
Fomite
1
Es ist fast unfair. Immerhin ist er Christian Robert! Ich mache nur Spaß. Gute Antwort. Und ich würde mich freuen, wenn @ Xi'an es in einem Beitrag in seinem Blog erweitern könnte, insbesondere darüber, wie wichtig Parametrisierung für das Thema "uninformative" Prioritäten ist.
Manoel Galdino
16

Eine ansprechende Eigenschaft formaler nicht-informativer Priors ist die "frequentist-matching property": Dies bedeutet, dass ein posteriores 95% -Überprüfungsintervall auch (zumindest annähernd) ein 95% -Überprüfungsintervall im frequentistischen Sinne ist. Diese Eigenschaft dient als Referenz für Bernardo, obwohl die Fundamente dieser nicht informativen Prioritäten nicht auf die Erzielung einer guten Frequentist-Matching-Eigenschaft ausgerichtet sind. Wenn Sie eine "naive" ("flache") nicht informative Priorität wie die Gleichverteilung oder eine Gaußsche verwenden Verteilung mit einer großen Varianz, dann gibt es keine Garantie dafür, dass das Objekt mit der Frequenzübereinstimmung gültig ist. Vielleicht könnte Bernardos Referenzprior nicht als die "beste" Wahl eines nicht-informativen Prior angesehen werden, sondern als die erfolgreichste.

Stéphane Laurent
quelle
9

Jeffreys-Verteilungen leiden auch unter Inkonsistenzen: Die Jeffreys-Prioritäten für eine Variable über oder über sind nicht korrekt, was bei Jeffreys vor einem Wahrscheinlichkeitsparameter : das Maß nicht der Fall ist hat eine Masse von über .(,)(0,)pdp/p(1p)π(0,1)

Renyi hat gezeigt , dass eine nicht-informative Verteilung muss mit einem uneigentlichen Integral zugeordnet werden. Siehe stattdessen Lhostes Verteilungen, die diese Schwierigkeit umgehen und bei Änderungen von Variablen unveränderlich sind (zB für ist das Maß ).pdp/p(1p)


Erstens ist die Übersetzung gut!

Für E. LHOSTE: "Le calcul des probabilités appliqué à l'artillerie", Revue d'artillerie, Band 91, Mai 1923

Für A. RENYI: "Über eine neue axiomatische Wahrscheinlichkeitstheorie" Acta Mathematica, Académie des Sciences Hongroises, Band VI, Fasc.3-4, 1955

Ich kann hinzufügen: M. DUMAS: "Lois de probabilité a priori de Lhoste", Sciences et Techniques de l'armement, 56, 4ème fascicule, 1982, S. 687-715

Heymann
quelle
3
Ist es möglich, dass Sie dies in Englisch umschreiben, auch wenn es durch einen automatisierten Übersetzungsdienst wie Google Translate ziemlich schlecht gemacht wird? Andere Benutzer, die sowohl Französisch als auch Englisch fließender sprechen, können Sie beim Kopieren unterstützen.
Silverfish
3
Soweit ich mich erinnere, ist das Invarianzergebnis von Lhoste auf die Transformationen und für die Parameter bzw. . Andere Transformationen von und nach führen zu unterschiedlichen Prioritäten. logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
Xi'an
2
Aus meiner kurzen Korrespondenz mit Maurice Dumas in den frühen neunziger Jahren erinnere ich mich, dass er eine Notiz über das Comptes-Rendus de l'Académie des Sciences geschrieben hat, aus der er die Transformationen und ableitet. " unveränderliche "Prioren. log()logit()
Xi'an
3

Ich stimme der ausgezeichneten Antwort von Xi'an zu und weise darauf hin, dass es keinen einzigen Prior gibt, der "nicht aussagekräftig" ist, wenn er keine Informationen enthält. Um dieses Thema zu erweitern, wollte ich darauf hinweisen, dass eine Alternative darin besteht, eine Bayes'sche Analyse innerhalb des ungenauen Wahrscheinlichkeitsrahmens durchzuführen (siehe insbesondere Walley 1991 , Walley 2000 ). Innerhalb dieses Rahmens wird der frühere Glaube durch eine Reihe von Wahrscheinlichkeitsverteilungen dargestelltund dies führt zu einer entsprechenden Menge von posterioren Verteilungen. Das klingt vielleicht nicht sehr hilfreich, ist aber erstaunlich. Selbst bei einer sehr breiten Palette von früheren Verteilungen (bei denen bestimmte Momente über alle möglichen Werte reichen können) kommt es häufig zu einer Konvergenz von posterior zu einem einzelnen posterior als .n

Dieses analytische Gerüst wurde von Walley als seine eigene spezielle Form der probabilistischen Analyse axiomatisiert, entspricht jedoch im Wesentlichen der robusten Bayes'schen Analyse unter Verwendung einer Reihe von Prioren, wodurch eine entsprechende Reihe von Posterioren erhalten wird. In vielen Modellen ist es möglich, eine "uninformative" Menge von Prioritäten festzulegen, die es ermöglicht, dass einige Momente (z. B. der vorherige Mittelwert) über den gesamten möglichen Wertebereich variieren, und dies führt dennoch zu wertvollen posterioren Ergebnissen, bei denen die posterioren Momente begrenzt sind enger. Diese Form der Analyse hat wohl einen besseren Anspruch darauf, als "nicht informativ" bezeichnet zu werden, zumindest in Bezug auf Momente, die über ihren gesamten zulässigen Bereich variieren können.


Ein einfaches Beispiel - Bernoulli-Modell: Angenommen, wir beobachten die Daten wobei der unbekannte interessierende Parameter ist. Normalerweise würden wir eine Beta-Dichte als Prior verwenden (sowohl der Jeffrey-Prior als auch der Referenz-Prior haben diese Form). Wir können diese Form der vorherigen Dichte in Form des vorherigen Mittelwerts und eines anderen Parameters wie angeben :X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(Diese Form gibt frühere Momente an: und .) Nun, in einem ungenauen Modell könnten wir set the prior to besteht aus der Menge all dieser früheren Verteilungen über alle möglichen erwarteten Werte , wobei der andere Parameter festgelegt wird, um die Genauigkeit über den Bereich der Mittelwerte zu steuern. Zum Beispiel könnten wir die Reihe der Prioritäten verwenden:E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Angenommen, wir beobachten positive Indikatoren in den Daten. Unter Verwendung der Aktualisierungsregel für das Bernoulli-Beta-Modell lautet der entsprechende hintere Satz:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

Der Bereich möglicher Werte für die hintere Erwartung ist:

sn+κ1E(θ|x)s+κ1n+κ1.

Was hier wichtig ist, ist, dass wir, obwohl wir mit einem Modell begonnen haben, das in Bezug auf den erwarteten Wert des Parameters "nicht informativ" war (die vorherige Erwartung lag über allen möglichen Werten), dennoch zu hinteren Schlussfolgerungen kommen, die in Bezug auf Respekt aussagekräftig sind zur späteren Erwartung des Parameters (sie erstrecken sich nun über einen engeren Wertesatz). Mit dieser Wertebereich auf einen einzelnen Punkt heruntergedrückt, der der wahre Wert von .nθ

Setzen Sie Monica wieder ein
quelle
+1. Interessant. Was ist Kappa in der letzten Gleichung? Sollte es ein Kappastern sein?
Amöbe sagt Reinstate Monica
Ich habe bearbeitet, um Variation in zu entfernen , um ein einfacheres Modell zu geben. Es sollte jetzt okay sein. κ
Setzen Sie Monica