Können MCMC-Iterationen nach dem Einbrennen zur Dichteschätzung verwendet werden?

Können wir nach dem Einbrennen die MCMC-Iterationen direkt zur Dichteschätzung verwenden, z. B. durch Zeichnen eines Histogramms oder zur Schätzung der Kerneldichte? Ich mache mir Sorgen, dass die MCMC-Iterationen nicht unbedingt unabhängig sind, obwohl sie höchstens identisch verteilt sind.

Was ist, wenn wir die MCMC-Iterationen weiter ausdünnen? Ich mache mir Sorgen, dass die MCMC-Iterationen höchstens unkorreliert und noch nicht unabhängig sind.

Der Grund, den ich für die Verwendung einer empirischen Verteilungsfunktion als Schätzung der wahren Verteilungsfunktion gelernt habe, basiert auf dem Glivenko-Cantelli-Theorem , bei dem die empirische Verteilungsfunktion basierend auf einer iid-Stichprobe berechnet wird. Ich schien einige Gründe (asymptotische Ergebnisse?) Für die Verwendung von Histogrammen oder Kernel-Dichteschätzungen als Dichteschätzungen zu sehen, aber ich kann mich nicht an sie erinnern.

distributions mcmc asymptotics Tim
quelle

Antworten:

Sie können - und die Leute tun es - die Dichte anhand der MCMC-Abtastung schätzen.

Eine Sache, die zu beachten ist, ist, dass Histogramme und KDEs zwar praktisch sind, aber zumindest in einfachen Fällen (wie Gibbs-Abtastung) möglicherweise wesentlich effizientere Schätzungen der Dichte verfügbar sind.

Wenn wir insbesondere die Gibbs-Abtastung berücksichtigen, kann die bedingte Dichte, aus der Sie die Abtastung durchführen, anstelle des Abtastwerts selbst verwendet werden, um eine gemittelte Schätzung der Dichte zu erstellen. Das Ergebnis ist in der Regel recht glatt.

Der Ansatz wird in diskutiert

Gelfand und Smith (1990), "Sampling-Based Approaches to Calculating Marginal Densities"
Journal der American Statistical Association , Vol. 3, No. 85, Nr. 410, S. 398-409

(obwohl Geyer warnt, dass wenn die Sampler-Abhängigkeit hoch genug ist, dies nicht immer die Varianz verringert und Bedingungen dafür gibt)

Dieser Ansatz wird beispielsweise auch in Robert, CP und Casella, G. (1999), Monte Carlo Statistical Methods, diskutiert .

Sie brauchen keine Unabhängigkeit, Sie berechnen tatsächlich einen Durchschnitt. Wenn Sie einen Standardfehler einer Dichteschätzung (oder eines cdf) berechnen möchten, müssen Sie die Abhängigkeit berücksichtigen.

Der gleiche Begriff gilt natürlich auch für andere Erwartungen und kann daher verwendet werden, um Schätzungen für viele andere Arten von Durchschnittswerten zu verbessern.

Glen_b - Monica neu starten
quelle

Vielen Dank! Meinen Sie damit, dass es keine Rolle spielt, korrelierte MCMC-Iterationen zur Schätzung der Randverteilungen zu verwenden, da Randverteilungen Erwartungen an die gemeinsame Verteilung sind? Was ist, wenn die korrelierten Iterationen zur Schätzung der gemeinsamen Verteilung verwendet werden? Immer noch in Ordnung?

Tim

Nein, das meine ich. Ich meine, die Schätzer, mit denen wir es zu tun haben, sind Durchschnittswerte von Dingen und werden verwendet, um Bevölkerungsmengen zu schätzen, die wiederum als Erwartungen an diese Dinge ausgelegt werden können. Ja, Sie können abhängige Ziehungen verwenden, um eine gemeinsame Verteilung im gleichen Sinne zu schätzen.

Glen_b -State Monica

Warum können wir die korrelierten Iterationen verwenden, um die gemeinsame Verteilung abzuschätzen? Ich denke nein, denn gemeinsame Verteilung ist keine Erwartung von etwas. Beachten Sie, dass im Glivenko-Cantelli-Theorem das empirische cdf anhand der iid-Stichprobe berechnet wird.

Tim

Für die Dichte können Sie beispielsweise die hier beschriebene Stichprobenschätzung in Betracht ziehen (und als Grenze eines Histogramms mit immer enger werdenden Bins betrachten). Es ist ein Durchschnitt, und ich glaube, seine Erwartung ist die Dichte. In Bezug auf das cdf möchten Sie vielleicht überlegen, ob Sie mit dem empirischen cdf etwas tun können, um es in Form eines Durchschnitts zu erstellen. Beide Ideen scheinen mit Proben aus einer gemeinsamen Verteilung zu funktionieren.

Glen_b -Reinstate Monica

Fortsetzen

Sie können die MCMC-Iterationen direkt für alles verwenden, da sich der Durchschnittswert Ihres Observablen asymptotisch dem wahren Wert nähert (weil Sie sich nach dem Einbrennen befinden).

Beachten Sie jedoch, dass die Varianz dieses Durchschnitts durch die Korrelationen zwischen den Stichproben beeinflusst wird. Dies bedeutet, dass das Speichern jeder Messung keinen wirklichen Vorteil bringt, wenn die Proben korreliert sind, wie es bei MCMC üblich ist.

Theoretisch sollten Sie nach N Schritten messen, wobei N in der Größenordnung der Autokorrelationszeit des zu messenden Observablen liegt.

Ausführliche Erklärung

$x_t$ $t$ $f$

$x_t \in \mathbb{R}$ $f=f_a(x)$ $x\in[a,a+\Delta]$ $x_t$ $P(x)$

$f$

F = \frac{1}{N} \sum_{i = 1}^{N} f (x_{i})

$F = \frac{1}{N}\sum_{i=1}^N f(x_i)$

$\langle F\rangle$ $P(x)$

⟨ F ⟩ = \frac{1}{N} \sum_{i = 1}^{N} ⟨ f (x_{i}) ⟩ = ⟨ f (x) ⟩

$\langle F \rangle = \frac{1}{N}\sum_{i=1}^N \langle f(x_i)\rangle = \langle f(x)\rangle$

Welches ist, was Sie erhalten möchten.

$\langle F^2 \rangle - \langle F \rangle^2$

\sum_{i = 1}^{N} \sum_{j = 1}^{N} ⟨ f (x_{i}) f (x_{j}) ⟩

$\sum_{i=1}^N\sum_{j=1}^N \langle f(x_i)f(x_j)\rangle$

$x_t$ $j=i+\Delta$ $f$ $R(\Delta)$

Um es noch einmal zusammenzufassen:

Wenn das Speichern jeder Kennzahl rechnerisch nichts kostet, können Sie dies tun. Beachten Sie jedoch, dass die Varianz nicht mit der üblichen Formel berechnet werden kann.
$\tau$ $\tau$

Jorge Leitao
quelle

Dies beantwortet nicht die spezielle Frage, die die Verwendung der Proben aus einer Markov-Kette zur Erstellung eines gültigen Dichteschätzers des Seitenzahns betraf . Der Punkt, dass der Standardfehler unserer Schätzung einer linearen Funktion höher ist als eine naive Schätzung basierend auf Unabhängigkeit, wird gut geschätzt, aber OP würde auf der Grundlage dieser Antwort immer noch nicht wissen, ob es eine gute Idee ist, einen Dichteschätzer zu konstruieren Verwenden von (sagen wir) Kernel-Glättung (die selbst unter iid-Abtastung nicht bei einem konvergieren würde

\sqrt{n}

$\sqrt n$

Ausdünnen ist nur eine Verschwendung nützlicher Daten. Die Varianz der Schätzung wird dadurch nicht verringert. Siehe die Kommentare zu dieser Frage: stats.stackexchange.com/a/258529/58675

DeltaIV

@ DeltaIV, ja. Mein Punkt hier war, dass Ausdünnen oder nicht, die relevante Zeitskala ist immer noch die Autokorrelationszeit.

Jorge Leitao