Welche Beziehung besteht zwischen Jeffreys Priors und einer Varianz stabilisierenden Transformation?

Ich habe über die Jeffreys Prior auf Wikipedia gelesen: Jeffreys Prior und gesehen, dass nach jedem Beispiel beschrieben wird, wie eine Varianz-stabilisierende Transformation die Jeffreys Prior in einen einheitlichen Prior verwandelt.

Für den Bernoulli-Fall heißt es beispielsweise, dass das Bernoulli-Versuchsmodell für eine Münze mit Wahrscheinlichkeit ergibt, dass Jeffreys Prior für den Parameter : $\gamma \in [0,1]$ $\gamma$

p (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}}

$p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}}$

Dann heißt es, dass dies eine Beta-Distribution mit . Weiter heißt es , dass , wenn , dann ist die Jeffreys vor Antritt ist gleichförmig in dem Intervall . $\alpha = \beta = \frac{1}{2}$ $\gamma = \sin^2(\theta)$ $\theta$ $\left[0, \frac{\pi}{2}\right]$

Ich erkenne die Transformation als eine Varianz-stabilisierende Transformation. Was mich verwirrt ist:

Warum würde eine varianzstabilisierende Transformation zu einem einheitlichen Prior führen?
Warum sollten wir überhaupt einen Uniformprior wollen? (da es anscheinend anfälliger ist, unpassend zu sein)

Im Allgemeinen bin ich mir nicht ganz sicher, warum die Quadrat-Sinus-Transformation gegeben ist und welche Rolle sie spielt. Würde jemand irgendwelche Ideen haben?

bayesian prior jeffreys-prior user1398057
quelle

Ich werde mich als autodidaktischer Scharlatan ausgeben, indem ich dies frage, aber: Auf welche varianzstabilisierende Transformation beziehen Sie sich? ?

\frac{1}{\sqrt{\sin^{2} (θ) (1 - \sin^{2} (θ))}}

$\frac{1}{\sqrt{\sin^2(\theta) \left( 1 - \sin^2(\theta) \right)}}$

Shadowtalker

Der quadratische Sinus ist herkömmlicherweise der falsche Weg, um an die Transformation zu denken. ist die Arkussinus-Quadratwurzel oder Winkeltransformation.

θ = arcsin \sqrt[]{γ}

$\theta = \text{arcsin} \root \of \gamma$

Nick Cox

Antworten:

Der Jeffrey-Prior ist unter Reparametrisierung unveränderlich. Aus diesem Grund betrachten es viele Bayesianer als „nicht informativen Prior“. (Hartigan hat gezeigt, dass es für einen ganzen Raum solcher Prioren wobei Jeffreys Prior und Hartigans asymptotisch lokal invarianter Prior ist. - Invariante Prior-Verteilungen ) $J^\alpha H^\beta$ $\alpha + \beta=1$ $J$ $H$

Es ist eine oft wiederholte Lüge, dass der einheitliche Prior nicht informativ ist, aber nach einer willkürlichen Transformation Ihrer Parameter und einem einheitlichen Prior für die neuen Parameter etwas völlig anderes bedeutet. Wenn sich eine willkürliche Änderung der Parametrisierung auf Ihren Prior auswirkt, ist Ihr Prior eindeutig informativ.

Die Verwendung der Jeffreys entspricht definitionsgemäß der Verwendung einer flachen Voreinstellung nach Anwendung der Varianzstabilisierungstransformation.
Aus mathematischer Sicht sind die Verwendung der Jeffreys-Prioritäten und die Verwendung einer Flat-Prioritäten nach Anwendung der Varianzstabilisierungstransformation äquivalent. Aus menschlicher Sicht ist letzteres wahrscheinlich besser, weil der Parameterraum in dem Sinne "homogen" wird, dass die Unterschiede in alle Richtungen gleich sind, unabhängig davon, wo Sie sich im Parameterraum befinden.

Betrachten Sie Ihr Bernoulli-Beispiel. Ist es nicht ein bisschen seltsam, dass 99% bei einem Test den gleichen Abstand zu 90% haben wie 59% zu 50%? Nach Ihrer Varianz-stabilisierenden Transformation sind die ersteren Paare stärker getrennt, als sie sein sollten. Es entspricht unserer Intuition über tatsächliche Entfernungen im Raum. (Mathematisch gesehen gleicht die Varianzstabilisierungstransformation die Krümmung des logarithmischen Verlusts der Identitätsmatrix an.)

Neil G
quelle

1. Ich bin damit einverstanden, dass ein einheitlicher Prior kein "nicht informativer" Prior bedeutet, aber mein Kommentar darüber, dass ein bestimmter Wert nicht über einem anderen Wert bewertet wird (unter dieser bestimmten Parametrisierung), gilt weiterhin. 2. Die Richtigkeit eines Prior ist sehr besorgniserregend . Wenn Sie einen unzulässigen Vorgänger haben und über Daten verfügen, kann nicht garantiert werden, dass Sie einen ordnungsgemäßen Nachfolger haben. Es ist also sehr besorgniserregend.

Greenparker

1. Aber das ist der springende Punkt: Die Parametrisierung ist willkürlich, daher ist es sinnlos zu sagen, dass Sie keinen Wert über einen anderen bewerten. 2. In der Praxis habe ich es nie in Bezug auf gefunden. Es könnte andere Leute betreffen, denke ich.

Neil G

1. Fairer Punkt. 2. Ich bin nicht sicher, mit welchen Problemen Sie es zu tun haben, aber selbst die einfache Gaußsche Wahrscheinlichkeit mit einem Jeffreys-Prior kann einen unpassenden posterioren Effekt haben. Siehe meine Antwort hier .

Greenparker

@ Greenparker Du hast recht. Ich werde in meiner Antwort klarstellen, warum es mich nicht betrifft.

Neil G

Ich denke nicht, dass die Bearbeitung korrekt ist. Wenn der hintere Teil nicht korrekt ist, ist MCMC höchstwahrscheinlich unsinnig, da Sie versuchen, aus einer undefinierten Verteilung zu zeichnen. Stellen Sie sich vor, Sie versuchen, eine Stichprobe von Uniform mit einem beliebigen Stichprobenschema zu erstellen. Der MCMC-Algorithmus ist zwar möglicherweise immer noch ergodisch (wenn Sie keine Wiederholung haben), aber Ihre Samples sind unbrauchbar.

(0, \infty)

$(0,\infty)$

Greenparker

Auf der von Ihnen angegebenen Wikipedia- Seite wird der Begriff "Varianzstabilisierende Transformation" nicht wirklich verwendet. Der Begriff "Varianz-stabilisierende Transformation" wird allgemein verwendet, um Transformationen anzuzeigen, die die Varianz der Zufallsvariablen zu einer Konstanten machen. Obwohl dies im Fall Bernoulli mit der Transformation geschieht, ist dies nicht genau das Ziel. Ziel ist es, eine gleichmäßige und nicht nur eine varianzstabilisierende Verteilung zu erreichen.

Erinnern Sie sich daran, dass einer der Hauptzwecke bei der Verwendung von Jeffreys Prior darin besteht, dass er während der Transformation invariant ist. Das heißt, wenn Sie die Variable neu parametrieren, ändert sich der Prior nicht.

$(1/2, 1/2)$

p_{γ} (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}} .

$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$

$\gamma = \sin^2(\theta)$ $\theta$ $\theta = \arcsin(\sqrt{\gamma})$ $0 < \gamma < 1$ $0 < \theta < \pi/2$ $\sin^2(x) + \cos^2(x) = 1$

\begin{aligned} F_{θ} (x) & = P (θ < x) \\ = P ({Sünde}^{2} (θ) < {Sünde}^{2} (x)) \\ = P (γ < {Sünde}^{2} (x)) \\ = F_{γ} ({Sünde}^{2} (x)) \\ f_{θ} (x) & = \frac{d F_{γ} ({Sünde}^{2} (x)}{d x} \\ = 2 Sünde (x) \cos (x) p_{γ} ({Sünde}^{2} (x)) \\ \propto Sünde (x) \cos (x) \frac{1}{\sqrt{{Sünde}^{2} (x) (1 - {Sünde}^{2} (x))}} \\ = 1. \end{aligned}

$\begin{align*} F_{\theta}(x) & = P(\theta < x)\\ & = P(\sin^2(\theta) < \sin^2(x))\\ & = P(\gamma < \sin^2(x))\\ & = F_{\gamma}(\sin^2(x))\\ f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\ & = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\ & \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\ & =1. \end{align*}$

Somit ist ; die gleichmäßige Verteilung auf . Aus diesem Grund wird die -Transformation verwendet, so dass die Umparametrierung zu einer gleichmäßigen Verteilung führt. Die gleichmäßige Verteilung ist jetzt Jeffreys prior auf (da Jeffreys prior bei der Transformation invariant ist). Dies beantwortet Ihre erste Frage. $\theta$ $(0, \pi/2)$ $\sin^2(\theta)$ $\theta$

In der Bayes'schen Analyse wird häufig eine einheitliche Prioritätsstufe gewünscht, wenn nicht genügend Informationen oder Vorkenntnisse über die Verteilung der Parameter vorliegen. Ein solcher Prior wird auch als "diffuser Prior" oder "Standardprior" bezeichnet. Die Idee ist, keinen Wert im Parameterraum mehr als andere Werte festzuschreiben. In einem solchen Fall ist der Posterior dann vollständig von der Datenwahrscheinlichkeit abhängig. Da

q (θ | x) \propto f (x | θ) f (θ) \propto f (x | θ) .

$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$

Wenn die Transformation derart ist, dass der transformierte Raum begrenzt ist (wie in diesem Beispiel), ist die gleichmäßige Verteilung richtig. Wenn der transformierte Raum nicht begrenzt ist, ist der Uniform-Prior nicht richtig, aber oft ist der resultierende hintere korrekt. Man sollte jedoch immer überprüfen, ob dies der Fall ist. $(0, \pi/2)$

Greenparker
quelle

Diese Idee, dass Sie sich "nicht auf irgendeinen Wert festlegen", indem Sie ein diffuses Prior verwenden, ist falsch. Der Beweis ist, dass Sie jede Transformation des Raums vornehmen können und der diffuse Prior etwas völlig anderes bedeuten wird.

Neil G

Mein Kommentar zu "Keine Festlegung auf einen Wert" bezieht sich nur auf diese bestimmte Parametrisierung. Natürlich werden Transformationen die Verteilung der Masse verändern (genau wie in diesem Bernoulli-Beispiel).

Greenparker

Wie ich weiter unten sagte, ist die Parametrisierung willkürlich, weshalb die Aussage "sich nicht auf irgendeinen Wert festlegen" bedeutungslos ist.

Neil G