Richtige Verwendung von Pseudo-Priors bei der Bayes'schen Modellauswahl

8

Ein Ansatz zum Modellvergleich in einem Bayes'schen Rahmen verwendet eine Bernoulli-Indikatorvariable, um zu bestimmen, welches von zwei Modellen wahrscheinlich das "wahre Modell" ist. Bei der Anwendung von MCMC-basierten Werkzeugen zum Anpassen eines solchen Modells werden häufig Pseudo-Priors verwendet, um das Mischen in den Ketten zu verbessern. Sehen Sie hier für eine sehr zugängliche Behandlung von warum pseudo-priors nützlich sind.

In ihrer wegweisenden Arbeit zu diesem Thema stellen Carlin & Chib (S. 475) fest, dass "die Form von [dem Pseudo-Prior] irrelevant ist", was ich damit meine, dass sie die posteriore Inferenz basierend auf dem Modell nicht beeinflussen sollte (obwohl Dies kann die MCMC-Mischung während der Modellanpassung beeinflussen. Meine Vermutung ist jedoch, dass die Form des Pseudo-Prior DOES eine Rolle spielt. Ich habe dies zuvor in dieser Frage gefragt . @ Xi'an kommentierte (4. Kommentar): "Die Schlussfolgerung, welches Modell korrekt ist, hängt nicht von den Pseudo-Priors ab ".

Kürzlich habe ich Kommentare von Martyn Plummer gelesen , die meinem Verständnis von Carlin & Chib widersprechen. Martyn sagt: " Damit die Carlin-Chib-Methode funktioniert, muss der Pseudo-Prior mit dem Posterior übereinstimmen, wenn das Modell wahr ist. "

(Ich sage NICHT, dass Plummer Carlin & Chib widerspricht; nur, dass er meinem Verständnis von Carlin & Chibs Behauptung widerspricht ).

All dies lässt mich mit fünf Fragen zurück:

  1. Was geht hier vor sich? Vorausgesetzt, dass das Modell konvergiert und eine gute effektive Stichprobengröße vom posterioren ergibt, hängt meine Schlussfolgerung darüber, welche Variablen in ein Modell aufgenommen werden sollen, von meinem Pseudo-Prior ab?
  2. Wenn nicht, wie können wir dies mit meiner Intuition und Plummers Kommentar in Einklang bringen ? Wenn ja, wie können wir dies mit Carlin & Chibs Papier und Xi'ans Kommentar (4. Kommentar) in Einklang bringen ?
  3. Wenn mein Verständnis von Plummers Kommentar korrekt ist und die Pseudo-Priors dem Posterior entsprechen müssen, wenn die Variable enthalten ist ... bedeutet dies, dass es für Pseudo-Priors unzulässig ist, genau den wahren Priors zu entsprechen? Dies würde bedeuten, dass Pseudo-Priors viel mehr als eine bequeme Technik sind, um das Mischen in der MCMC zu verbessern !!
  4. Was ist, wenn die Indikatorvariable einen Teil des Modells mit mehreren Parametern ein- und ausschaltet (z. B. einen zufälligen Effekt mit einem großen Mittelwert, einer Varianz und n Gruppeneffekten)? Welche der folgenden Punkte sind zulässig (in der Reihenfolge, in der ich sicher bin, dass der Ansatz zulässig ist)? Gibt es einen besseren Ansatz, den ich nicht aufführe?

    ich. Verwenden Sie einen Pseudo-Prior, der die vollständige Verteilung aller Parameter im hinteren Bereich des Gelenks annähert.

    ii. Wenn das Mischen akzeptabel nicht grausam ist, verwenden Sie überhaupt keine Pseudo-Priors (dh verwenden Sie Pseudo-Priors, die den wahren Priors entsprechen).

    iii. Verwenden Sie für jeden Parameter einen Pseudo-Prior, der auf den univariaten posterioren Verteilungen basiert, aber machen Sie sich keine Sorgen darüber, wie sie gemeinsam verteilt sind.

    iv. Verwenden Sie nach der scheinbar einfachen Sprache von Carlin & Chib einen Pseudo-Prior, der ein rechnerisch effizientes Mischen in den MCMC-Ketten ermöglicht, da "die Form des [Pseudo-Prior] irrelevant ist".

  5. Was bedeutet @ Xi'an im ersten Kommentar zu meiner Frage : " Die Pseudo-Priors müssen in einer wichtigen Stichprobenart korrigiert werden. "

Jacob Socolar
quelle
Haben Sie diese ähnliche Frage überprüft ? Es wird darauf hingewiesen, dass Doing Bayesian Data Analysis 2ed von Kruschke die Methode von Carlin und Chib verwendet [Kapitel 10]. Dies wäre eine sanfte Einführung in die Methode, wenn das Originalpapier zu hart klingt.
Xi'an

Antworten:

3
  1. Was geht hier vor sich?

Dies ist eine sehr allgemeine Frage mit der offensichtlichen Antwort, Carlin & Chib (1995) im Detail zu untersuchen . Die wesentliche Idee besteht darin, den Gelenkparameter zu berücksichtigen(m,θ1,θ2) wo m bezeichnet den Modellindex (m=1,2) und θ1,θ2 die Parameter beider Modelle in dem Sinne, dass die Daten aus der Dichte stammen

f(x|m,θ1,θ2)=fm(x|θm)
dh einer der beiden Parameter θ3m ist überflüssig, sobald der Modellindex m eingestellt ist.

Sobald diese Fertigstellung abgeschlossen ist, muss ein Prior für das Triplett ausgewählt werden (m,θ1,θ2), welches ist

π(m,θ1,θ2)=π(m)πm(θm)π~m(θ3m)
wo ich mit bezeichne π(m) und πm(θm)die wahren Prioritäten auf dem Modellindex und auf den Parametern jedes Modells. Das zusätzlicheπ~m(θ3m) ist frei, weil der hintere auf θ3m ist gleich dem Prior:
π(m,θ1,θ2|x)=π(m|x)πm(θm|x)π~m(θ3m)
Die Daten wirken sich nicht auf den Parameter aus, von dem sie nicht abhängen. Und damit Rückschluss aufθm wird durch die Wahl von nicht beeinflusst π~m(.). In der Praxis bedeutet dies, dass der Algorithmus zum Simulieren aus dem erweiterten Modell erzeugt
  1. eine Häufigkeit für jedes Modell, die sich der posterioren Wahrscheinlichkeit dieses Modells annähert
  2. eine Folge von Parametern θm wann m ist der Modellindex, der zur Inferenz auf diesen Parameter verwendet werden soll
  3. eine Folge von Parametern θ3m wann m ist der Modellindex, der ignoriert werden soll.
  1. Wie bringen wir das mit meiner Intuition und Plummers Kommentar in Einklang?

Was Martyn Plummer in seinem Kommentar bedeutet, ist, dass der Pseudo-Prior für den Parameter mit dem anderen Index keine Rolle spielt m muss aber der wahre Prior des Parameters mit dem aktuellen Index sein 3m. Dies stimmt zu 100% mit dem Papier von Carlin & Chib (1995) überein .

  1. Bedeutet dies, dass es für Pseudo-Priors unzulässig ist, genau den wahren Priors zu entsprechen?

Pseudo-Priors können als die wahren Priors angesehen werden, vorausgesetzt, diese sind richtig. Aber wie Carlin & Chib (1995) zeigen, ist es viel effizienter, eine Annäherung an den wahren posterioren,π3m(θ3m|x), Annäherung, die durch einen vorläufigen MCMC-Lauf für jedes Modell erhalten werden kann.

  1. Was ist, wenn die Indikatorvariable einen Teil des Modells mit mehreren Parametern ein- und ausschaltet?

Die Lösung für dieses Rätsel besteht darin, unterschiedliche Parametersätze für alle unterschiedlichen Modelle zu berücksichtigen, dh keine gemeinsamen Parameter zwischen zwei Modellen zu haben. Wenn Sie sich in einem Variablenauswahlproblem befinden, bedeutet dies, dass Sie einen anderen Parameter und eine andere Notation für den Variablenkoeffizienten verwendenX1 wann X2 ist Teil der Regression und wann X2ist nicht Teil der Regression. Verwenden Sie ab diesem Zeitpunkt einen beliebigen Pseudo-Prior für die überflüssigen Parameter.

  1. Was bedeutet @ Xi'an im ersten Kommentar?

Ich meine, wenn die Wahrscheinlichkeiten von Besuchen in den beiden Modellen nicht die Wahrscheinlichkeiten des Vorgängers sind, muss die hintere Wahrscheinlichkeit eines Modells, die durch die simulierte Häufigkeit geschätzt wird, korrigiert werden.

Xi'an
quelle
Ich respektiere Ihr Fachwissen in dieser Ausgabe und vertraue darauf, dass diese Antwort richtig ist. Es fällt mir jedoch schwer, diese Antwort mit Plummers vollständigem Kommentar in Einklang zu bringen, in dem er vorschlägt, "Modell 1 anzupassen, nachdem der Eintrag m = 1 zu den Daten hinzugefügt wurde (Modell 1 muss wahr sein). Überwachen Sie die Werte von a1 [1]. , b1 [1] und c1 [1]. Stellen Sie den Pseudo-Prior für a1 [2], b1 [2], c1 [2] so ein, dass er mit den hinteren Momenten von a1 [1], b1 [1] und c1 [übereinstimmt. 1], Machen Sie dasselbe für Modell 2, aber mit m = 2 in den Daten. Stellen Sie den Pseudo-Prior für a2 [1], b2 [1], c2 [1] so ein, dass er mit den hinteren Momenten von a2 [2], b2 [übereinstimmt 2] und c2 [2] in diesem Modell. "
Jacob Socolar
Dies ist nur eine (gültige) Wahl von Pseudo-Prior.
Xi'an
Großartig. Mein letzter Haken ist also, diese Antworten mit den folgenden zu vergleichen. Wenn Modell 1 Pseudoprioren hat, die die hintere Masse nicht stark überlappen, und Modell 2 gute Pseudoprioren hat und die beiden Modelle angesichts der Daten eine ähnliche hintere Wahrscheinlichkeit haben, ist es einfach, von 1 auf 2 zu springen, und es ist schwierig, von 2 zu springen Ich kann nicht verstehen, dass dies nicht dazu führt, dass die MCMC mehr Zeit in Modell 2 verbringt, was zu einer ungültigen posterioren Inferenz auf m führt. Plummers vollständiger Kommentar scheint dieses Problem zu lösen (falsches Problem?).
Jacob Socolar
Ein ineffizientes MCMC, das eine bestimmte Region nicht oft besucht, wird dies kompensieren, indem es sehr lange in dieser Region bleibt, sodass es im Durchschnitt die richtige Zeit zur Verfügung hat.
Xi'an
Danke noch einmal. Letzte Frage: Natürlich verstehe ich Carlin & Chib nicht ganz. Können Sie genau sagen, was mir fehlt? Weil ich dachte, dass die Markov-Kette für m einen zufälligen Spaziergang machen sollte, bei dem die Wahrscheinlichkeit pro Schritt, auf 2 umzuschalten (gegebenes m = 1), geringer ist als die Wahrscheinlichkeit pro Schritt, auf 1 umzuschalten (gegebenes m = 2)? Wenn m = 1 ist, werden die Parameter von Modell 2 von ihren (nicht guten) Pseudoprioren abgetastet, so dass es schwierig ist, einen Vorschlag mit m = 2 zu akzeptieren. Wenn jedoch m = 2 ist, werden die Parameter von Modell 1 von ihren (guten) Pseudoprioren abgetastet, so dass es einfach sein sollte, einen Vorschlag mit m = 1 zu akzeptieren.
Jacob Socolar