Jeffreys Prior für mehrere Parameter

14

In bestimmten Fällen wird der Jeffreys-Prior für ein vollständiges mehrdimensionales Modell im Allgemeinen als unzureichend angesehen. Dies ist beispielsweise der Fall in: (wobei , mit und unbekannt) in dem vor dem folgenden (in vollen Jeffreys vor bevorzugt wird ): wobei der Jeffreys-Prior ist, der erhalten wird, wenn festgehalten wird (und ähnlich für ). Dieser Prior stimmt mit dem Referenzprior überein, wenn behandelt wird

yi=μ+εi,
εN(0,σ2)μσπ(μ,σ)σ2
p(μ,σ)=π(μ)π(σ)σ1,
π(μ)σp(σ)σ undμ in getrennten Gruppen.

Frage 1: Warum ist es sinnvoller, sie als separate Gruppen zu behandeln, als sie in derselben Gruppe zu behandeln (was, wenn ich richtig bin (?), Zu Jeffreys Prior in voller Dimension führt, siehe [1])?


Man betrachte dann die folgende Situation: Wo & thgr; R n unbekannt ist, ε i ~ N ( 0 , & sgr; 2 ) , σ ist unkown, und g ist eine bekannte nicht-lineare Funktion. In einem solchen Fall ist es verlockend und meiner Erfahrung nach manchmal fruchtbar, die folgende Zerlegung in Betracht zu ziehen: p ( σ , θ ) = π ( σ ) π ( θ )

yi=g(xi,θ)+εi,
θRnεiN(0,σ2)σg wobei π ( σ ) und π ( θ )
p(σ,θ)=π(σ)π(θ),
π(σ)π(θ) ist die Jeffreys vor für die beiden Teilmodelle wie bei dem vorherigen Skalen Standort Beispiel.

Frage 2: Können wir in einer solchen Situation etwas über die Optimalität (aus informationstheoretischer Sicht) des abgeleiteten Priores sagen ?p(σ,θ)


[1] Aus https://theses.lib.vt.edu/theses/available/etd-042299-095037/unrestricted/etd.pdf :

Schließlich stellen wir fest, dass Jeffreys Prior ein Sonderfall eines Referenzprior ist. Insbesondere entspricht Jeffreys Prior dem Referenzprior, in dem alle Modellparameter in einer einzigen Gruppe behandelt werden.

peuhp
quelle
2
Ich denke du meinst multivariables Modell, multivariate Regression ist streng genommen für mehrere Variablen auf der linken Seite reserviert.
mdewey

Antworten:

2

Was ist optimal? Es gibt kein allgemeines und allgemeines "Optimalitäts" -Ergebnis für Jeffreys Prior. Alles hängt vom Zweck der statistischen Analyse und der Verlustfunktion ab, die zur Bewertung und zum Vergleich von Verfahren herangezogen wird. Ansonsten ist π(θ,σ)1σπ(θ,σ)1σ2

Xi'an
quelle
1
Vielen Dank für Ihre Eingabe. Meiner Ansicht nach bietet Jeffreys Prior jedoch eine Art von Optimalität in dem Sinne, dass sie zumindest in der 1d-Einstellung eine informationstheoretische Menge minimieren, die sinnvoll ist und diskutiert werden kann (lassen Sie mich bitte wissen, wenn ich falsch liege ). Mein Punkt ist: Können wir ein ähnliches "Kriterium" schreiben, das Jeffreys vorheriges Verfahren für die beiden in meiner Frage angegebenen Einstellungen erfüllt? Aus dem Zitat in meiner Frage geht hervor, dass es mir Spaß macht, die Auswirkungen der Auswahl dieses Kriteriums anstelle eines anderen zu diskutieren (aus rein IT-Sicht :).
peuhp