Wann sollte ich mir Sorgen um das Jeffreys-Lindley-Paradoxon bei der Wahl des Bayes'schen Modells machen?

12

Ich betrachte einen großen (aber begrenzten) Raum von Modellen unterschiedlicher Komplexität, die ich mit RJMCMC erforsche . Das Voranstellen des Parametervektors für jedes Modell ist ziemlich informativ.

  1. In welchen Fällen (wenn überhaupt) sollte ich mir Sorgen machen, dass das Jeffreys-Lindley-Paradoxon einfachere Modelle bevorzugt, wenn eines der komplexeren Modelle besser geeignet wäre?

  2. Gibt es einfache Beispiele, die die Probleme des Paradoxons bei der Wahl des Bayes'schen Modells aufzeigen?

Ich habe einige Artikel gelesen, nämlich Xi'ans Blog und Andrew Gelmans Blog , aber ich verstehe das Problem immer noch nicht ganz.

Jeff
quelle
1
Ich denke, es gibt zu viele Fragen, und sie sind zu eindeutig, um hier effektiv beantwortet zu werden.
Jaradniemi
Vielen Dank für die Rückmeldung, @jaradniemi, ich habe die Frage "Sollte die RJMCMC-Prozedur, die effektiv die posterioren Modellwahrscheinlichkeiten zurückgibt, dieselben Modelle wie DIC bevorzugen?" Entfernt.
Jeff

Antworten:

5

Entschuldigen Sie die Unklarheit in meinem Blog !

Hinweis: In dieser anderen Antwort auf Cross Validated habe ich einige Hintergrundinformationen zur Auswahl des Bayes'schen Modells und zum Jeffreys-Lindley-Paradoxon gegeben .

Das Jeffreys-Lindley paradox ist verwandt mit Bayes - Modell Wahl, dass die marginale Likelihood wird bedeutungsloswenn π a σ -finite Maßnahme (dh ein Maß mit unendlicher Masse) eher als ein Wahrscheinlichkeitsmaß. Der Grund für diese Schwierigkeit istdass die unendliche Masse macht & pgr; und c π ununterscheidbar für jede positive Konstante c . Insbesondere der Bayes-Faktor kann nicht verwendet werden und sollte nicht verwendet werden, wenn ein Modell mit einem "flachen" Vorgänger ausgestattet ist.

m(x)=π(θ)f(x|θ)dθ
πσπcπc

Das ursprüngliche Jeffreys-Lindley-Paradoxon verwendet die Normalverteilung als Beispiel. Beim Vergleich der Modelle und x ~ N ( θ , 1 ) der Faktor Bayes ist B 12 = exp { - N ( ˉ x n ) 2 / 2 }

xN(0,1)
xN(θ,1)
Es ist gut definiertwennπein richtiges ist voraber wenn Sie einen normalen Stand nehmenN(0,τ2)aufθund lassenτbis ins Unendliche zu gehen, geht der Nenner auf Null für jeden Wert von ˉ x nvon Null verschieden und ein beliebiger Wert vonn. (Es sei denn,τundnsind verwandt, dies wird jedoch komplizierter!) Verwenden Sie stattdessen direktπ(θ)=c,wobeiceine notwendigerweise willkürliche Konstante ist, den Bayes-FaktorB
B12=exp{-n(x¯n)2/2}-+exp{-n(x¯n-θ)2/2}π(θ)dθ
πN(0,τ2)θτx¯nnτn
π(θ)=c
c wird B 12 = exp { - N ( ˉ x n ) 2 / 2 }B12 daher direkt abhängig vonc.
B12=exp{-n(x¯n)2/2}c-+exp{-n(x¯n-θ)2/2}dθ=exp{-n(x¯n)2/2}c2π/n
c

Wenn Ihre Prioritäten informativ (und daher korrekt) sind, gibt es keinen Grund für das Jeffreys-Lindley-Paradoxon. Bei einer ausreichenden Anzahl von Beobachtungen wählt der Bayes-Faktor das Modell, das die Daten generiert hat, konsistent aus. (Oder genauer gesagt, das Modell innerhalb der Modellsammlung, das für die Modellauswahl in Betracht gezogen wird und dem "wahren" Modell, das die Daten generiert hat, am nächsten kommt.)

Xi'an
quelle
2
Vielen Dank für Ihre sehr detaillierte Antwort, Xi'an! Ihr Blog ist sehr klar (ich habe viel daraus gelernt). Ich habe dieses spezielle Problem nur langsam verstanden!
Jeff
Eigentlich arbeitet mein Blog mit sehr variablen Annahmen bezüglich Hintergrund und Voraussetzung, so dass es sicher zuweilen und für viele Leser unklar ist!
Xi'an,