Bayesianer: Sklaven der Wahrscheinlichkeitsfunktion?

62

In seinem Buch "All of Statistics" präsentiert Prof. Larry Wasserman das folgende Beispiel (11.10, Seite 188). Angenommen, wir haben eine Dichte , so daß , wobei ein bekannter (nicht - negativ, integrierbare) -Funktion, und die Normierungskonstante ist unbekannt .ff(x)=cg(x)c > 0gc>0

Wir interessieren uns für die Fälle, in denen wir nicht berechnen können . Zum Beispiel kann es der Fall sein, dass ein PDF über einen sehr hochdimensionalen Probenraum ist.c=1/g(x)dxf

Es ist bekannt, dass es Simulationstechniken gibt, mit denen wir aus , obwohl unbekannt ist. Daher lautet das Rätsel: Wie können wir aus einer solchen Stichprobe abschätzen ?fcc

Prof. Wasserman beschreibt die folgende Bayes'sche Lösung: Sei ein Prior für . Die Wahrscheinlichkeit ist Daher hängt das hintere nicht von den Abtastwerten . Daher kann ein Bayesianer die in der Stichprobe enthaltenen Informationen nicht verwenden, um Rückschlüsse auf .πc

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
x 1 , , x n c
π(cx)cnπ(c)
x1,,xnc

Prof. Wasserman weist darauf hin, dass "Bayesianer Sklaven der Wahrscheinlichkeitsfunktion sind. Wenn die Wahrscheinlichkeit schief geht, wird auch die bayesianische Folgerung".

Meine Frage an meine Mitstapler lautet: Was ist in Bezug auf dieses Beispiel (wenn überhaupt) mit der Bayes'schen Methodik schiefgegangen?

PS Wie Prof. Wasserman in seiner Antwort freundlich erklärte, ist das Beispiel Ed George zu verdanken.

Zen
quelle
10
Dieses Beispiel klingt nur nach einer bizarren ineffektiven Methode zur numerischen Integration und nicht nach einer Bayes'schen Analyse.
Whuber
2
Wie kann man sagen , dass die Bayes lernt nichts über . Wenn dies der Fall wäre, hätten wir . Es ist eindeutig nicht. π ( c | x ) π ( c )cπ(c|x)π(c)
Wahrscheinlichkeitslogik
2
Ich verstehe dieses Beispiel nicht wirklich. Wenn nicht von abhängt, ist es dann nicht überraschend, dass die Daten nicht informativ sind, da dann nur von der Form von abhängt und für Stichprobe gleich ist? Mir fehlt offensichtlich ein subtiler (oder nicht so subtiler) Punkt. c c g ( ) a n yg()ccg()any
Dikran Beuteltier
Ich habe mir einen formal bayesianischen Ansatz ausgedacht, der den Einwand von @ Zen überwinden kann , Xi'ans mangelndes Interesse nicht kontraindiziert und letztendlich nur die Genauigkeit der numerischen Integration bewertet.
Phaneron
1
Eine nette Fortsetzung
Zen

Antworten:

43

Dies wurde in meinem Artikel (nur im Internet veröffentlicht) "Über ein Beispiel von Larry Wasserman" [ 1 ] und in einem Blog-Austausch zwischen mir, Wasserman, Robins und einigen anderen Kommentatoren in Wassermans Blog besprochen : [ 2 ]

Die kurze Antwort ist, dass Wasserman (und Robins) Paradoxe erzeugen, indem sie vorschlagen, dass Vorgänger in hochdimensionalen Räumen Eigenschaften haben müssen, die entweder implizieren, dass der interessierende Parameter a priori mit nahezu Gewissheit bekannt ist oder dass ein eindeutig relevantes Problem vorliegt (Auswahlfehler). ist mit ziemlicher Sicherheit bekannt, nicht anwesend zu sein. In der Tat hätten vernünftige Priors diese Eigenschaften nicht. Ich bin dabei, einen zusammenfassenden Blog-Beitrag zu schreiben, um dies zusammenzufassen. Es gibt eine ausgezeichnete Arbeit von 2007, die von Hameling und Toussaint sinnvolle bayesianische Ansätze zu den Beispielen zeigt, die Wasserman und Ritov betrachten: „Bayesianische Schätzer für Robins-Ritovs Problem“ [ 3 ]

Chris Sims
quelle
12
Vielen Dank für Ihren Beitrag, Prof. Sims. Stimmen Sie mit meiner Antwort unten überein? PS Jetzt haben wir Nobelpreise auf SE. Wie wär es damit? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen
1
@ ChrisSims Professor Sims Danke, dass Sie gekommen sind und meine Antwort mit Ihrer sehr maßgeblichen Antwort weggeblasen haben!
Michael Chernick
4
Ich bin alarmiert über die Tatsache, dass diese Antwort die höchste Stimmenanzahl hat (derzeit). Wie Prof. Wasserman bemerkt, handelt es sich bei der Antwort von Prof. Sims um ein völlig anderes Rätsel als das, nach dem Zen gefragt hat. Ich schließe daraus, dass die meisten Leute es hochgestuft haben, ohne die von Sims bereitgestellten Links gelesen und verstanden zu haben.
Cyan
3
Cyan, Sie können die Kommentare von Prof. Sim zu diesem Rätsel in Link [1], WassermanComment.pdf, p finden. 10, Abschnitt VII. Postscript 2.
madprob
43

Ich sehe in diesem Beispiel nicht viel Anklang, insb. als mögliche Kritik an Bayesianern und Likelihood-Wallahs .... Die Konstante ist bekannt und entspricht Wenn die einzige ist " Unbekannt "im Bild, wenn eine Stichprobe von , dann gibt es keine statistische Ausgabe über das Problem und ich bin nicht einverstanden, dass Schätzer für . Noch Prioren auf (anders als die Dirac-Masse auf dem obigen Wert). Dies ist keineswegs ein statistisches Problem, sondern ein numerisches Problem.1 /X g ( x ) d x c x 1 , , x n c cc

1/Xg(x)dx
cx1,,xncc

Dass die Stichprobe durch eine (frequentistische) Dichteschätzung verwendet werden kann, um eine numerische Approximation von bereitzustellen, ist eine bloße Neugier. Keine Kritik an alternativen statistischen Ansätzen: Ich könnte auch eine Bayes'sche Dichteschätzung verwenden ... cx1,,xnc

Xi'an
quelle
4
Es ist nicht möglich, mit einem richtigen Prior zu beginnen und mit einem unpassenden Posterior zu enden, wenn die Wahrscheinlichkeit eine echte bedingte Dichte ist!
Xi'an
Wie definiere ich den Unterschied zwischen einer unbekannten Konstante und einem Parameter? In Einführung in die Wahrscheinlichkeit zieht de Finetti in Betracht, Ihre Unsicherheit für . Würde de Finetti betrachten irgendwie verschieden von ? Wenn nicht, würde bei Betrachtung der Daten seine Unsicherheit über ändern ? Auch in Bezug auf unbekannte Konstanten / Parameter. Nehmen wir an, Alice wählt eine Konstante und gibt , . Obwohl eine unbekannte Konstante ist, wäre Bob in der Lage, seinen Prior für und zu verwenden, um mehr über zu erfahrenc π X 1 , X 2 , ... , X n c c R x = r n o r m ( 100 , c , 1 ) c c x c cπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Warum ist in Wassermans Beispiel anders? c
Madprob
3
Ich bin nicht de Finetti, also kann ich nicht für ihn antworten!
Xi'an
3
Ihr Beispiel ist statistisch: Ich erhalte Beobachtungen , deren zugrunde liegende Verteilung wird durch einen unbekannten Parameter geregelt c . Larrys (! Oder Eds) Beispiel ist nicht statistisch: die Verteilung der Probe ist vollständig bekannt und nicht von einem unbekannten Parameter angetrieben c . Dies wird durch die Antwort von Zen weiter veranschaulicht : Sie können einfach nicht schreiben ohne mit einem Paradoxon zu enden, da es nur einen einzigen möglichen Wert von c gibt. f(x1,,xn|c)
Xi'an
40

Ich stimme zu, dass das Beispiel komisch ist. Ich meinte, es sei wirklich eher ein Rätsel. (Das Beispiel ist eigentlich von Ed George.)

Es wirft die Frage auf, was es bedeutet, dass etwas "bekannt" ist. Christian sagt, dass bekannt ist. Aber zumindest aus rein subjektiver Wahrscheinlichkeitssicht wissen Sie es nicht, nur weil es im Prinzip bekannt sein kann. (Angenommen, Sie können das numerische Integral nicht ausführen.) Ein subjektiver Bayesianer betrachtet alles als Zufallsvariable mit einer Verteilung, einschließlich .ccc

Jedenfalls das Papier

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae und Z. Tan (2003), Theorie statistischer Modelle für die Monte-Carlo-Integration , J. Royal Statistic. Soc. B , vol. 65, nein. 3, 585–604

(mit Diskussion) behandelt im Wesentlichen das gleiche Problem.

Das Beispiel, auf das Chris Sims in seiner Antwort anspielt, ist ganz anderer Natur.

Larry Wasserman
quelle
3
Professor Wasserman Danke, dass Sie gekommen sind und Ihr Beispiel und seine Geschichte erklärt haben. Ich war ein Doktorand in Stanford und überschnitt mich mit Ed George. Die Statistikabteilung von Stanford war damals sehr nicht-bayesianisch, obwohl wir mit Efron und Stein am Rande der empirischen Bayes standen. Die Abteilung war jedoch sehr aufgeschlossen und Dennis Lindley gab einen Abschlusskurs in Bayes-Statistik, den ich einen Sommer lang absolvierte. Irgendwie wurde Ed zum vollwertigen Bayesianer konvertiert und schrieb sogar eine Arbeit über Gibbs Sampling für Dummies (allerdings natürlich nicht mit diesem Titel).
Michael Chernick
1
Ich habe und lese gerne Ihre kleinen Bücher "All of Statistics" und "All of Nonparametrics".
Michael Chernick
1
vielleicht nicht so zufällig, diskutierte ich dieses Papier von Kong et al. (2003), wobei die Effizienz der Verwendung von Gruppentransformationen eher für die Kennzahl als für die Verteilung im Wesentlichen negativ beurteilt wird. In letzter Zeit hat mich Xiao-Li zu einer positiveren Wahrnehmung des Papiers gebracht ...
Xi'an,
1
"Angenommen, Sie können das numerische Integral nicht ausführen." Ich verstehe, dass die logische Unsicherheit (für die dies ein Beispiel ist) trotz erheblicher Anstrengungen der Analyse widerstanden hat.
John Salvatier
Nach der gleichen Logik, dass unbekannt ist, weil man es nicht berechnen kann, müsste man auch folgern, dass die Funktion "unbekannt" ist, und dem Funktionsraum, in dem sie lebt, ein Priorum zuweisen. , , ... weil Sie auswerten können , aber aus Sicht der Funktionsanalyse behaupte ich, Sie "wissen" nicht, was eine Funktion ist, es sei denn, Sie können sie gegen ein Element des Dualen testen Raum, wie die Integration funktional. cgg(x1)g(x2)g
Nick Alger
23

Das vorgeschlagene statistische Modell kann wie folgt beschrieben werden: Sie haben eine bekannte nicht - negative integrierbare Funktion , und eine nicht negative Zufallsvariable . Die Zufallsvariablen sollen bedingt unabhängig und identisch verteilt sein, vorausgesetzt, , mit bedingter Dichte , für .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Leider ist dies im Allgemeinen keine gültige Beschreibung eines statistischen Modells. Das Problem ist , dass per definitionem muss eine Wahrscheinlichkeitsdichte für fast jeden möglichen Wert sein , die in der Regel ist eindeutig falsch. Tatsächlich gilt dies nur für den einzelnen Wert . Daher ist das Modell nur im trivialen Fall korrekt spezifiziert, wenn sich die Verteilung von auf diesen bestimmten Wert konzentriert. Natürlich interessiert uns dieser Fall nicht. Was wir wollen, ist, dass die Verteilung von von Lebesgue-Maßen dominiert wird und ein nettes pdf .fXiC(c) cc=(g(x)dx)1CCπ

Wenn man also , wird der Ausdruck als Funktion genommen von für festes keiner echten Wahrscheinlichkeitsfunktion.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Alles, was danach kommt, geht auf dieses Problem zurück. Insbesondere der mit Bayes 'Theorem berechnete Posterior ist falsch. Es ist leicht zu erkennen, dass: Angenommen, Sie haben einen korrekten Prior Beachten Sie, dass . Gemäß der in dem Beispiel dargestellten Berechnung sollte der Posterior Aber wenn das stimmt, wäre dieser Posterior immer unpassend, weil Abweichungen für jede Stichprobengröße .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Dies ist unmöglich: Wir wissen, dass, wenn wir mit einem richtigen Prior beginnen, unser Posterior nicht für jede mögliche Stichprobe falsch sein kann (es kann innerhalb eines Satzes von Null-Voraussagewahrscheinlichkeiten falsch sein).

Zen
quelle
Es tut mir leid, dass niemand Ihre Antwort kommentiert hat. Ich denke, Sie haben vielleicht einen Punkt, aber ich bin ein wenig verwirrt. Natürlich können Sie gültige vorherige Verteilungen auf die positiven reellen Zahlen setzen. Warum können Sie nicht für jedes c> 0 eine Wahrscheinlichkeitsdichte f definieren, wenn g nicht negativ ist und ein endliches Integral für R ? +
Michael Chernick
1
Hallo Michael. Natürlich kannst du: Gamma, Lognormal usw. Ich verstehe nicht, wie das mit der Antwort zusammenhängt. Wahrscheinlich verstehe ich nicht, was du sagst.
Zen
Nun, ich habe Probleme, Ihrem Argument zu folgen. Sie sagen, dass die bedingte Dichte für f nur für ein c existiert, aber das ist nicht wahr. Ich verstehe nicht, warum der Ausdruck für die Wahrscheinlichkeit ungültig ist und wie man einen Beweis durch Widerspruch erhält, indem man einen richtigen Prior annimmt und irgendwie zeigt, dass er zu einer falschen posterioren Verteilung führt.
Michael Chernick
Es scheint mir, dass der Kern des Problems darin besteht, dass die Daten wirklich unabhängig von c sind und keine Informationen über c enthalten. Ich denke, man kann sagen, dass es eine Wahrscheinlichkeitsfunktion gibt, an der c beteiligt ist, aber diese Wahrscheinlichkeit kann nicht als Funktion von c maximiert werden. Für jede Wahl von c gibt es meines Erachtens ein f = cg.
Michael Chernick
4
Jeder richtige Prior ohne n-ten Moment würde auch in Ihrem Beispiel funktionieren. Ich bin damit einverstanden, dass dies ein nützlicher Weg ist, um zu zeigen, dass etwas nicht stimmt. Ich denke eher, dass der Prior nicht auf der Kenntnis von . Da Sie Kennen, gibt es nur einen Punkt, der mit diesen Informationen übereinstimmt. Dies ist die Dirac-Delta-Funktion . Andere Prioritäten zu verwenden, ist logischerweise falsch. Seine Art wie wenn man sagt , wenn aus nicht unabhängig ist gegebeng(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
probabilityislogic
11

Das Beispiel ist etwas seltsam und erfunden. Der Grund, warum die Wahrscheinlichkeit schief geht, ist, dass g eine bekannte Funktion ist. Der einzige unbekannte Parameter ist c, der nicht Teil der Wahrscheinlichkeit ist. Da g bekannt ist, geben Ihnen die Daten auch keine Informationen über f. Wann sehen Sie so etwas in der Praxis? Der hintere Teil ist also nur proportional zum vorherigen und alle Informationen über c sind im vorherigen.

Okay, aber denk darüber nach. Frequentisten verwenden die maximale Wahrscheinlichkeit und so verlassen sich die Frequentisten manchmal auch auf die Wahrscheinlichkeitsfunktion. Nun, der Frequentist kann Parameter auf andere Weise abschätzen, wie Sie vielleicht sagen. Dieses gekochte Problem hat jedoch nur einen Parameter c, und in den Daten zu c sind keine Informationen enthalten. Da g bekannt ist, gibt es kein statistisches Problem in Bezug auf unbekannte Parameter, die aus dem Datenzeitraum entnommen werden können.

Michael Chernick
quelle
Danke, Michael. Seltsame Situation, nicht wahr? Prof. Wasserman schlägt die folgende Methode vor, um zu schätzen : Nehmen Sie einen beliebigen (häufig auftretenden) konsistenten Schätzer der Dichte (zum Beispiel eine Art Kernschätzer). Wählen Sie einen beliebigen Punkt und beachten Sie, dass ein konsistenter Schätzer von . cf^fxc^=f^(x)/g(x)c
Zen
4
@Zen Okay, nehmen wir dieses Beispiel. Warum überhaupt Daten sammeln? Wir wissen, g. Wir können es also numerisch integrieren, um c mit jeder gewünschten Genauigkeit zu bestimmen, ohne etwas abschätzen zu müssen! Die Annahme, dass wir c nicht berechnen können, bedeutet, dass wir es nicht integrieren können, obwohl wir g als Funktion von x kennen! Ich denke, sein Beispiel ist schwach und so ist das Argument und ich mag seine Bücher im Allgemeinen.
Michael Chernick
11

Es ist eine Ironie, dass die Standardmethode für die Bayes'sche Berechnung die häufigste Analyse von MCMC-Proben ist. In diesem Beispiel könnten wir als eng verwandt mit der Grenzwahrscheinlichkeit betrachten, die wir berechnen möchten, aber wir werden Bayes'sche Puristen im Sinne von Versuchen, die Berechnung auch auf Bayes'sche Weise durchzuführen.c

Es ist nicht üblich, aber es ist möglich, dies in ein Bayes'sches Gerüst zu integrieren. Dies beinhaltet die Priorisierung der Funktion (in der Praxis ein Gauß-Prozess), die Bewertung der Funktion an einigen Punkten, die Konditionierung auf diese Punkte und die Berechnung eines Integrals über dem posterioren über . In dieser Situation beinhaltet die Wahrscheinlichkeit die Bewertung von an einer Reihe von Punkten, aber ist ansonsten unbekannt, daher unterscheidet sich die Wahrscheinlichkeit stark von der oben angegebenen Wahrscheinlichkeit. Die Methode wird in diesem Artikel gezeigt: http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Ich glaube nicht, dass mit der Bayes'schen Methodik etwas schief gelaufen ist. Die Wahrscheinlichkeit, wie geschrieben, behandelt wie überall bekannt. Wenn dies der Fall wäre, gäbe es keinen statistischen Aspekt für das Problem. Wenn angenommen wird, dass bis auf eine endliche Anzahl von Punkten unbekannt ist, funktioniert die Bayes'sche Methodik einwandfrei.g()g()

David Rohde
quelle
Überrascht hat dies nicht mehr positive Stimmen. Dies bringt den Kern des Problems auf den Punkt, nämlich die uneindeutige Behauptung, dass Sie "wissen", was eine Funktion ist, nur weil Sie sie jederzeit bewerten können. Ich denke, ein geeigneteres Kriterium, um zu sagen, dass Sie eine Funktion "kennen", ist die Fähigkeit, eine stetige lineare Funktion darauf zu bewerten.
Nick Alger
@ Nick Alger: Die Leute haben wahrscheinlich das Interesse verloren. Ich stimme dem nicht zu, weil ich nicht überzeugt bin, dass es Bayes ist. Beziehen sich die xi in der Menge D (xi, f (xi)) auf xi, die in der Studie beobachtet oder zufällig von ihnen generiert wurden? Wenn es das erste ist, ist es Bayes, aber mit einem einfachen MC mit ein paar Sekunden Rechenzeit sehr leicht zu schlagen (es funktioniert also nicht gut) oder es ist nicht Bayes (hat sich nicht auf die Daten festgelegt).
Phaneron
-2

Wir könnten die Definition möglicher bekannter Daten (analog zur Erweiterung von Daten, um fehlende Daten für beobachtete, aber verlorene Daten zu berücksichtigen ) um NULL (keine generierten Daten) erweitern.

Nehmen wir an, Sie haben einen richtigen Prior Definieren Sie nun das Datenmodell für x

π(c)=1c2I[1,)(c).

Wennc=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a für jede}

Andernfalls istfaXaC(xac)=0

Der posterior wäre also 0 oder 1 (richtig), aber die Wahrscheinlichkeit aus dem obigen Datenmodell ist nicht verfügbar (da Sie die im Datenmodell erforderliche Bedingung nicht bestimmen können).

Also machst du ABC.

Zeichnen Sie ein "c" vom vorherigen.

Nun approximiere durch eine numerische Integration und behalte "c", wenn diese Approximation - "c" <epsilon.(g(x)dx)1

Das gehaltene c ist eine Annäherung an den wahren posterior.

(Die Genauigkeit der Approximation hängt von Epsilon und der ausreichenden Konditionierung dieser Approximation ab.)

Phaneron
quelle
-5

Warte was? Sie haben es hängt also von den Werten von . Nur weil Sie die Abhängigkeit in einem " " verstecken, heißt das nicht, dass Sie sie ignorieren können?{ x i }

π(c|x)=(Πig(xi))cnπ(c),
{xi}
verwirrt
quelle
2
Lieber verwirrt: die obige Gleichung ist falsch. Wo ist der Nenner (die marginale Wahrscheinlichkeit von )? Teilen Sie durch und Sie werden sehen, dass sich aufhebt. Das "posterior" im Buch ist aus anderen Gründen falsch. Bitte überprüfe meine Antwort. f ( x c )xn i = 1 g ( x i )f(xc)π(c)dci=1ng(xi)
Zen