Sampling von einer falschen Distribution (unter Verwendung von MCMC und anderen)

15

Meine grundlegende Frage lautet: Wie würden Sie eine Stichprobe aus einer unsachgemäßen Verteilung entnehmen? Ist es überhaupt sinnvoll, Proben aus einer unsachgemäßen Verteilung zu entnehmen?

Xi'ans Kommentar hier geht auf die Frage ein, aber ich suchte nach mehr Details dazu.

Spezifischer für MCMC:

In Bezug auf MCMC und das Lesen von Artikeln betonen die Autoren, dass sie korrekte posteriore Verteilungen erhalten haben. Es gibt das berühmte Papier von Geyer (1992) , bei dem der Autor vergessen hat, zu überprüfen, ob der hintere Teil korrekt ist (ansonsten ein ausgezeichnetes Papier).

Nehmen wir jedoch an, dass a eine Wahrscheinlichkeit und eine ungenaue vorherige Verteilung auf so dass der resultierende hintere Teil ebenfalls ungenau ist und MCMC verwendet wird, um eine Stichprobe aus der Verteilung zu ziehen. Was zeigt in diesem Fall die Stichprobe? Enthält dieses Beispiel nützliche Informationen? Mir ist bewusst, dass die Markov-Kette hier entweder vorübergehend oder null-wiederkehrend ist. Gibt es positive Take-Aways, wenn sie null-wiederkehrend sind ? $f(x|\theta)$ $\theta$

Schließlich erwähnt er in Neil Gs Antwort hier die

Sie können in der Regel (unter Verwendung von MCMC) Proben aus dem posterior entnehmen, auch wenn dies nicht der Fall ist.

Er erwähnt, dass solche Stichproben beim tiefen Lernen häufig vorkommen. Wenn dies wahr ist, wie macht dies Sinn?

distributions bayesian mcmc markov-process improper-prior Greenparker
quelle

1

Diese jstor.org/stable/pdf/2246228.pdf?_=1462943547901 kann interessant sein

peuhp

@peuhp Auf jeden Fall hilfreich. Was ich aus dem Artikel verstehe, ist, dass, wenn die aus den Proben auszuwertenden Funktionalitäten integrierbar sind, die Probenahme von einem ungeeigneten posterior Sinn macht. Ist meine Interpretation korrekt?

Greenparker

3

Ja. Stellen Sie sich einen trivialen Fall eines unpassenden Seitenzahns vor, bei dem die Unzulänglichkeit auf Fettschwänze zurückzuführen ist, und eine Funktion, die außerhalb von gleich Null ist und alle guten Eigenschaften für die Integrierbarkeit über . Die Tatsache, dass der hintere Teil unpassend ist, ist irrelevant, da der einzige Teil des hinteren Teils von Bedeutung ist, der über .

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

[0, 1]

$[0,1]$

Bogenschütze

10

Eine Stichprobe von einem nicht geeigneten posterioren (Dichte) ist aus probabilistischer / theoretischer Sicht nicht sinnvoll. Der Grund dafür ist, dass die Funktion kein endliches Integral über dem Parameterraum hat und folglich nicht mit einem (endlichen Maß) Wahrscheinlichkeitsmodell (Raum, Sigma-Algebra, Wahrscheinlichkeitsmaß ) verknüpft werden kann ). $f$ $f$ $(\Omega,\sigma,{\mathbb P})$

Wenn Sie ein Modell mit einem nicht korrekten Vorgänger haben, der zu einem nicht korrekten Nachfolger führt, können Sie in vielen Fällen immer noch mit MCMC, z. B. Metropolis-Hastings, davon eine Stichprobe erstellen, und die "Nachfolger-Stichproben" sehen möglicherweise vernünftig aus. Das sieht auf den ersten Blick faszinierend und paradox aus. Der Grund dafür ist jedoch, dass MCMC-Methoden auf numerische Beschränkungen der Computer in der Praxis beschränkt sind und daher alle Unterstützungen für einen Computer beschränkt (und diskret!) Sind. Dann ist unter diesen Einschränkungen (Beschränktheit und Diskriminanz) der hintere Teil in den meisten Fällen tatsächlich in Ordnung.

Es gibt eine großartige Referenz von Hobert und Casella, die ein (etwas anderes) Beispiel darstellt, in dem Sie einen Gibbs-Sampler für einen posterior konstruieren können. Die posterioren Samples sehen vollkommen vernünftig aus, aber der posterior ist unpassend!

http://www.jstor.org/stable/2291572

Ein ähnliches Beispiel ist kürzlich hier erschienen . Tatsächlich warnen Hobert und Casella den Leser, dass MCMC-Methoden nicht zum Erkennen von Unzulänglichkeiten des Seitenzahns verwendet werden können und dass dies separat überprüft werden muss, bevor MCMC-Methoden implementiert werden. In Summe:

Einige MCMC-Sampler, wie Metropolis-Hastings, können (sollten aber nicht) verwendet werden, um von einem nicht geeigneten posterioren Sample zu sampeln, da der Computer den Parameterraum begrenzt und diskretisiert. Nur wenn Sie große Proben haben, können Sie möglicherweise einige seltsame Dinge beobachten. Wie gut Sie diese Probleme erkennen können, hängt auch von der "instrumentellen" Verteilung Ihres Samplers ab. Der letztere Punkt erfordert eine ausführlichere Diskussion, daher möchte ich ihn hier belassen.
(Hobert und Casella). Die Tatsache, dass Sie einen Gibbs-Sampler (bedingtes Modell) für ein Modell mit einem falschen Vorgänger konstruieren können, bedeutet nicht, dass das hintere Modell (Gelenkmodell) korrekt ist.
Eine formale probabilistische Interpretation der posterioren Stichproben erfordert die Angemessenheit des posterioren. Konvergenzergebnisse und -nachweise werden nur für geeignete Wahrscheinlichkeitsverteilungen / -maße erstellt.

PS (ein bisschen frech): Glauben Sie nicht immer, was die Leute beim maschinellen Lernen machen. Wie Prof. Brian Ripley sagte: "Maschinelles Lernen ist Statistik abzüglich jeglicher Überprüfung von Modellen und Annahmen".

Stange
quelle

(+1) Tolle Antwort und stimmt mit den meisten meiner Gedanken überein. Ich werde die Hobert + Casella Referenz lesen. Würdest du zufällig wissen, dass etwas Besseres passieren kann, wenn die Markov-Kette null ist? Stimmen Sie auch der PS-Bemerkung zu.

Greenparker

@ Greenparker Null wiederkehrende Markov-Ketten haben keine stationäre Verteilung. Dann sind sie im Kontext von MCMC (wo Sie Markov-Ketten mit stationärer Verteilung konstruieren, die der Zielverteilung entspricht) unbrauchbar. Siehe zum Beispiel hier und hier .

Rod

5

Geben Sie eine alternative, mehr angewandte Ansicht von Rods hervorragender Antwort oben -

$+/- 10^{100}$

$1/x$ Ich benutze für die Berechnung eine, die keine Obergrenze hat, und das "zusätzliche Merkmal", bei dem es gleich Null über der Bevölkerung von San Francisco ist ... ", wobei das" zusätzliche Merkmal "in angewendet wird Ein Schritt nach der Generierung des Samples. Der echte Prior ist nicht der, der bei der MCMC-Berechnung verwendet wird (in meinem Beispiel).

Im Prinzip wäre ich mit der Verwendung einer MCMC-generierten Stichprobe aus einer unsachgemäßen Verteilung in der angewandten Arbeit durchaus einverstanden, aber ich würde sehr darauf achten, wie diese Unangemessenheit zustande kam und wie die Zufallsstichprobe davon beeinflusst wird . Im Idealfall würde die Zufallsstichprobe nicht davon betroffen sein, wie in meinem Hot-Dog-Beispiel, in dem in einer vernünftigen Welt niemals eine Zufallszahl generiert würde, die größer ist als die Anzahl der Personen in San Francisco.

Sie sollten sich auch der Tatsache bewusst sein, dass Ihre Ergebnisse sehr empfindlich auf die Funktion des Seitenzahns reagieren können, die zu Unregelmäßigkeiten geführt hat, selbst wenn Sie sie später bei einer großen Anzahl abschneiden (oder welche Änderung auch immer für Ihr Modell geeignet ist). ) Sie möchten, dass Ihre Ergebnisse unempfindlich gegenüber geringfügigen Veränderungen sind, die Ihren posterioren Bereich von unsachgemäß zu richtig verändern. Dies kann schwieriger zu gewährleisten sein, ist jedoch Teil des größeren Problems, sicherzustellen, dass Ihre Ergebnisse Ihren Annahmen widersprechen, insbesondere denjenigen, die der Einfachheit halber erstellt wurden.

Bogenschütze
quelle

+1, interessante Taktik. Sie können die Kürzung auch als Ihren tatsächlichen Prior angeben. Ich würde mir vorstellen, dass dies bei der Ausführung von mcmc möglicherweise nicht zu viele Ihrer Berechnungen beeinträchtigt und die Notwendigkeit einer Diskussion über die Verwendung einer Annäherung überflüssig macht.

Vermutungen

@conjectures - sicherlich in diesem Fall! Dies war nur ein einfaches Beispiel, das veranschaulichen soll, dass a) ein Unterschied zwischen dem in der MCMC-Berechnung verwendeten Prior und dem tatsächlichen Prior bestehen kann, b) der Unterschied durch Nachbearbeitung der MCMC-Probe behoben werden kann (bis Ein angemessener Grad an "Auflösung") und c) Unangemessenheit der Ergebnisse des in der MCMC-Berechnung verwendeten Vorgängers bedeutet keine Unangemessenheit der Ergebnisse nach erfolgter Nachbearbeitung.

Bogenschütze

Sampling von einer falschen Distribution (unter Verwendung von MCMC und anderen)

Antworten: