Ich schätze derzeit Parameter eines Modells, das durch mehrere gewöhnliche Differentialgleichungen (ODEs) definiert ist. Ich versuche dies mit einem Bayes'schen Ansatz, indem ich die posteriore Verteilung der Parameter anhand einiger Daten unter Verwendung der Markov-Kette Monte Carlo (MCMC) approximiere.
Ein MCMC-Sampler generiert eine Kette von Parameterwerten, wobei er die (nicht normalisierte) hintere Wahrscheinlichkeit eines bestimmten Parameterwerts verwendet, um (stochastisch) zu entscheiden, ob er diesen Wert zur Kette hinzufügt oder den vorherigen Wert erneut hinzufügt. Es scheint jedoch üblich zu sein, dass die tatsächlichen posterioren Wahrscheinlichkeiten nicht gespeichert werden müssen, sondern ein n-dimensionales Histogramm der resultierenden Parameterwerte generiert und zusammenfassende Statistiken wie Regionen mit der höchsten Dichte (HDRs) eines Parameters posterior verteilt werden aus diesem Histogramm. Zumindest habe ich das aus Kruschkes Tutorial-Buch über Bayes'sche Inferenz gelernt .
Meine Frage: Wäre es nicht einfacher, die posterioren Wahrscheinlichkeiten der abgetasteten Parameterwerte zusammen mit diesen zu speichern und die posteriore Verteilung aus diesen Werten und nicht aus den Häufigkeiten der Parameterwerte in der MCMC-Kette zu approximieren? Das Problem der Einbrennphase würde nicht auftreten, da der Probenehmer anfänglich immer noch Regionen mit geringer Wahrscheinlichkeit häufiger abtasten würde, als sie aufgrund ihrer hinteren Wahrscheinlichkeiten "verdienen" würden, aber es wäre nicht mehr das Problem, diesen übermäßig hohe Wahrscheinlichkeitswerte zu geben.
Antworten:
Dies ist eine interessante Frage mit verschiedenen Themen:
quelle
Wie Sie richtig bemerkt haben, sind die Wahrscheinlichkeiten, mit denen wir es zu tun haben, nicht normalisiert . Grundsätzlich verwenden wir MCMC, um den Normalisierungsfaktor im Bayes-Theorem zu berechnen. Wir können die Wahrscheinlichkeiten nicht verwenden, da sie nicht normalisiert sind. Das von Ihnen vorgeschlagene Verfahren: Die nicht normalisierten Wahrscheinlichkeiten zu speichern und sie dann durch ihre Summe zu teilen, ist falsch.
Sie haben auch entsprechende Wahrscheinlichkeiten:
In diesem Fall werden die Wahrscheinlichkeiten normalisiert, aber das Teilen durch ihre Summe (die durch Wahrscheinlichkeitsaxiome gleich Eins ist) sollte nichts ändern. Leider ändert sich bei Verwendung Ihres Verfahrens das Ergebnis in:
Warum ist das so? Die Antwort ist einfach: In Ihrer Stichprobe wird jede gespeicherte "Wahrscheinlichkeit"
f
mit Wahrscheinlichkeit angezeigtf
, sodass Sie die Wahrscheinlichkeiten selbst gewichten!quelle