In seinem Buch "All of Statistics" präsentiert Prof. Larry Wasserman das folgende Beispiel (11.10, Seite 188). Angenommen, wir haben eine Dichte , so daß , wobei ein bekannter (nicht - negativ, integrierbare) -Funktion, und die Normierungskonstante ist unbekannt .c > 0
Wir interessieren uns für die Fälle, in denen wir nicht berechnen können . Zum Beispiel kann es der Fall sein, dass ein PDF über einen sehr hochdimensionalen Probenraum ist.
Es ist bekannt, dass es Simulationstechniken gibt, mit denen wir aus , obwohl unbekannt ist. Daher lautet das Rätsel: Wie können wir aus einer solchen Stichprobe abschätzen ?
Prof. Wasserman beschreibt die folgende Bayes'sche Lösung: Sei ein Prior für . Die Wahrscheinlichkeit ist Daher hängt das hintere nicht von den Abtastwerten . Daher kann ein Bayesianer die in der Stichprobe enthaltenen Informationen nicht verwenden, um Rückschlüsse auf .
Prof. Wasserman weist darauf hin, dass "Bayesianer Sklaven der Wahrscheinlichkeitsfunktion sind. Wenn die Wahrscheinlichkeit schief geht, wird auch die bayesianische Folgerung".
Meine Frage an meine Mitstapler lautet: Was ist in Bezug auf dieses Beispiel (wenn überhaupt) mit der Bayes'schen Methodik schiefgegangen?
PS Wie Prof. Wasserman in seiner Antwort freundlich erklärte, ist das Beispiel Ed George zu verdanken.
Antworten:
Dies wurde in meinem Artikel (nur im Internet veröffentlicht) "Über ein Beispiel von Larry Wasserman" [ 1 ] und in einem Blog-Austausch zwischen mir, Wasserman, Robins und einigen anderen Kommentatoren in Wassermans Blog besprochen : [ 2 ]
Die kurze Antwort ist, dass Wasserman (und Robins) Paradoxe erzeugen, indem sie vorschlagen, dass Vorgänger in hochdimensionalen Räumen Eigenschaften haben müssen, die entweder implizieren, dass der interessierende Parameter a priori mit nahezu Gewissheit bekannt ist oder dass ein eindeutig relevantes Problem vorliegt (Auswahlfehler). ist mit ziemlicher Sicherheit bekannt, nicht anwesend zu sein. In der Tat hätten vernünftige Priors diese Eigenschaften nicht. Ich bin dabei, einen zusammenfassenden Blog-Beitrag zu schreiben, um dies zusammenzufassen. Es gibt eine ausgezeichnete Arbeit von 2007, die von Hameling und Toussaint sinnvolle bayesianische Ansätze zu den Beispielen zeigt, die Wasserman und Ritov betrachten: „Bayesianische Schätzer für Robins-Ritovs Problem“ [ 3 ]
quelle
Ich sehe in diesem Beispiel nicht viel Anklang, insb. als mögliche Kritik an Bayesianern und Likelihood-Wallahs .... Die Konstante ist bekannt und entspricht Wenn die einzige ist " Unbekannt "im Bild, wenn eine Stichprobe von , dann gibt es keine statistische Ausgabe über das Problem und ich bin nicht einverstanden, dass Schätzer für . Noch Prioren auf (anders als die Dirac-Masse auf dem obigen Wert). Dies ist keineswegs ein statistisches Problem, sondern ein numerisches Problem.1 / ∫ X g ( x ) d x c x 1 , … , x n c cc
Dass die Stichprobe durch eine (frequentistische) Dichteschätzung verwendet werden kann, um eine numerische Approximation von bereitzustellen, ist eine bloße Neugier. Keine Kritik an alternativen statistischen Ansätzen: Ich könnte auch eine Bayes'sche Dichteschätzung verwenden ... cx1,…,xn c
quelle
Ich stimme zu, dass das Beispiel komisch ist. Ich meinte, es sei wirklich eher ein Rätsel. (Das Beispiel ist eigentlich von Ed George.)
Es wirft die Frage auf, was es bedeutet, dass etwas "bekannt" ist. Christian sagt, dass bekannt ist. Aber zumindest aus rein subjektiver Wahrscheinlichkeitssicht wissen Sie es nicht, nur weil es im Prinzip bekannt sein kann. (Angenommen, Sie können das numerische Integral nicht ausführen.) Ein subjektiver Bayesianer betrachtet alles als Zufallsvariable mit einer Verteilung, einschließlich .cc c
Jedenfalls das Papier
(mit Diskussion) behandelt im Wesentlichen das gleiche Problem.
Das Beispiel, auf das Chris Sims in seiner Antwort anspielt, ist ganz anderer Natur.
quelle
Das vorgeschlagene statistische Modell kann wie folgt beschrieben werden: Sie haben eine bekannte nicht - negative integrierbare Funktion , und eine nicht negative Zufallsvariable . Die Zufallsvariablen sollen bedingt unabhängig und identisch verteilt sein, vorausgesetzt, , mit bedingter Dichte , für .g:R→R C X1,…,Xn C=c fXi∣C(xi∣c)=cg(xi) c>0
Leider ist dies im Allgemeinen keine gültige Beschreibung eines statistischen Modells. Das Problem ist , dass per definitionem muss eine Wahrscheinlichkeitsdichte für fast jeden möglichen Wert sein , die in der Regel ist eindeutig falsch. Tatsächlich gilt dies nur für den einzelnen Wert . Daher ist das Modell nur im trivialen Fall korrekt spezifiziert, wenn sich die Verteilung von auf diesen bestimmten Wert konzentriert. Natürlich interessiert uns dieser Fall nicht. Was wir wollen, ist, dass die Verteilung von von Lebesgue-Maßen dominiert wird und ein nettes pdf .fXi∣C(⋅∣c) c c=(∫∞−∞g(x)dx)−1 C C π
Wenn man also , wird der Ausdruck als Funktion genommen von für festes keiner echten Wahrscheinlichkeitsfunktion.x=(x1,…,xn)
Alles, was danach kommt, geht auf dieses Problem zurück. Insbesondere der mit Bayes 'Theorem berechnete Posterior ist falsch. Es ist leicht zu erkennen, dass: Angenommen, Sie haben einen korrekten Prior Beachten Sie, dass . Gemäß der in dem Beispiel dargestellten Berechnung sollte der Posterior Aber wenn das stimmt, wäre dieser Posterior immer unpassend, weil Abweichungen für jede Stichprobengröße .
Dies ist unmöglich: Wir wissen, dass, wenn wir mit einem richtigen Prior beginnen, unser Posterior nicht für jede mögliche Stichprobe falsch sein kann (es kann innerhalb eines Satzes von Null-Voraussagewahrscheinlichkeiten falsch sein).
quelle
Das Beispiel ist etwas seltsam und erfunden. Der Grund, warum die Wahrscheinlichkeit schief geht, ist, dass g eine bekannte Funktion ist. Der einzige unbekannte Parameter ist c, der nicht Teil der Wahrscheinlichkeit ist. Da g bekannt ist, geben Ihnen die Daten auch keine Informationen über f. Wann sehen Sie so etwas in der Praxis? Der hintere Teil ist also nur proportional zum vorherigen und alle Informationen über c sind im vorherigen.
Okay, aber denk darüber nach. Frequentisten verwenden die maximale Wahrscheinlichkeit und so verlassen sich die Frequentisten manchmal auch auf die Wahrscheinlichkeitsfunktion. Nun, der Frequentist kann Parameter auf andere Weise abschätzen, wie Sie vielleicht sagen. Dieses gekochte Problem hat jedoch nur einen Parameter c, und in den Daten zu c sind keine Informationen enthalten. Da g bekannt ist, gibt es kein statistisches Problem in Bezug auf unbekannte Parameter, die aus dem Datenzeitraum entnommen werden können.
quelle
Es ist eine Ironie, dass die Standardmethode für die Bayes'sche Berechnung die häufigste Analyse von MCMC-Proben ist. In diesem Beispiel könnten wir als eng verwandt mit der Grenzwahrscheinlichkeit betrachten, die wir berechnen möchten, aber wir werden Bayes'sche Puristen im Sinne von Versuchen, die Berechnung auch auf Bayes'sche Weise durchzuführen.c
Es ist nicht üblich, aber es ist möglich, dies in ein Bayes'sches Gerüst zu integrieren. Dies beinhaltet die Priorisierung der Funktion (in der Praxis ein Gauß-Prozess), die Bewertung der Funktion an einigen Punkten, die Konditionierung auf diese Punkte und die Berechnung eines Integrals über dem posterioren über . In dieser Situation beinhaltet die Wahrscheinlichkeit die Bewertung von an einer Reihe von Punkten, aber ist ansonsten unbekannt, daher unterscheidet sich die Wahrscheinlichkeit stark von der oben angegebenen Wahrscheinlichkeit. Die Methode wird in diesem Artikel gezeigt: http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg() g() g() g()
Ich glaube nicht, dass mit der Bayes'schen Methodik etwas schief gelaufen ist. Die Wahrscheinlichkeit, wie geschrieben, behandelt wie überall bekannt. Wenn dies der Fall wäre, gäbe es keinen statistischen Aspekt für das Problem. Wenn angenommen wird, dass bis auf eine endliche Anzahl von Punkten unbekannt ist, funktioniert die Bayes'sche Methodik einwandfrei.g() g()
quelle
Wir könnten die Definition möglicher bekannter Daten (analog zur Erweiterung von Daten, um fehlende Daten für beobachtete, aber verlorene Daten zu berücksichtigen ) um NULL (keine generierten Daten) erweitern.
Nehmen wir an, Sie haben einen richtigen Prior Definieren Sie nun das Datenmodell für x
Wennc=(∫∞−∞g(x)dx)−1
Andernfalls istfaXa∣C(xa∣c)=0
Der posterior wäre also 0 oder 1 (richtig), aber die Wahrscheinlichkeit aus dem obigen Datenmodell ist nicht verfügbar (da Sie die im Datenmodell erforderliche Bedingung nicht bestimmen können).
Also machst du ABC.
Zeichnen Sie ein "c" vom vorherigen.
Nun approximiere durch eine numerische Integration und behalte "c", wenn diese Approximation - "c" <epsilon.(∫∞−∞g(x)dx)−1
Das gehaltene c ist eine Annäherung an den wahren posterior.
(Die Genauigkeit der Approximation hängt von Epsilon und der ausreichenden Konditionierung dieser Approximation ab.)
quelle
Warte was? Sie haben es hängt also von den Werten von . Nur weil Sie die Abhängigkeit in einem " " verstecken, heißt das nicht, dass Sie sie ignorieren können?{ x i } ∝
quelle