Ich habe über die Jeffreys Prior auf Wikipedia gelesen: Jeffreys Prior und gesehen, dass nach jedem Beispiel beschrieben wird, wie eine Varianz-stabilisierende Transformation die Jeffreys Prior in einen einheitlichen Prior verwandelt.
Für den Bernoulli-Fall heißt es beispielsweise, dass das Bernoulli-Versuchsmodell für eine Münze mit Wahrscheinlichkeit ergibt, dass Jeffreys Prior für den Parameter :γ
Dann heißt es, dass dies eine Beta-Distribution mit . Weiter heißt es , dass , wenn , dann ist die Jeffreys vor Antritt ist gleichförmig in dem Intervall . γ=sin2(θ)θ[0,π
Ich erkenne die Transformation als eine Varianz-stabilisierende Transformation. Was mich verwirrt ist:
Warum würde eine varianzstabilisierende Transformation zu einem einheitlichen Prior führen?
Warum sollten wir überhaupt einen Uniformprior wollen? (da es anscheinend anfälliger ist, unpassend zu sein)
Im Allgemeinen bin ich mir nicht ganz sicher, warum die Quadrat-Sinus-Transformation gegeben ist und welche Rolle sie spielt. Würde jemand irgendwelche Ideen haben?
quelle
Antworten:
Der Jeffrey-Prior ist unter Reparametrisierung unveränderlich. Aus diesem Grund betrachten es viele Bayesianer als „nicht informativen Prior“. (Hartigan hat gezeigt, dass es für einen ganzen Raum solcher Prioren wobei Jeffreys Prior und Hartigans asymptotisch lokal invarianter Prior ist. - Invariante Prior-Verteilungen ) α + β = 1 J HJαHβ α + β= 1 J H
Es ist eine oft wiederholte Lüge, dass der einheitliche Prior nicht informativ ist, aber nach einer willkürlichen Transformation Ihrer Parameter und einem einheitlichen Prior für die neuen Parameter etwas völlig anderes bedeutet. Wenn sich eine willkürliche Änderung der Parametrisierung auf Ihren Prior auswirkt, ist Ihr Prior eindeutig informativ.
Die Verwendung der Jeffreys entspricht definitionsgemäß der Verwendung einer flachen Voreinstellung nach Anwendung der Varianzstabilisierungstransformation.
Aus mathematischer Sicht sind die Verwendung der Jeffreys-Prioritäten und die Verwendung einer Flat-Prioritäten nach Anwendung der Varianzstabilisierungstransformation äquivalent. Aus menschlicher Sicht ist letzteres wahrscheinlich besser, weil der Parameterraum in dem Sinne "homogen" wird, dass die Unterschiede in alle Richtungen gleich sind, unabhängig davon, wo Sie sich im Parameterraum befinden.
Betrachten Sie Ihr Bernoulli-Beispiel. Ist es nicht ein bisschen seltsam, dass 99% bei einem Test den gleichen Abstand zu 90% haben wie 59% zu 50%? Nach Ihrer Varianz-stabilisierenden Transformation sind die ersteren Paare stärker getrennt, als sie sein sollten. Es entspricht unserer Intuition über tatsächliche Entfernungen im Raum. (Mathematisch gesehen gleicht die Varianzstabilisierungstransformation die Krümmung des logarithmischen Verlusts der Identitätsmatrix an.)
quelle
Auf der von Ihnen angegebenen Wikipedia- Seite wird der Begriff "Varianzstabilisierende Transformation" nicht wirklich verwendet. Der Begriff "Varianz-stabilisierende Transformation" wird allgemein verwendet, um Transformationen anzuzeigen, die die Varianz der Zufallsvariablen zu einer Konstanten machen. Obwohl dies im Fall Bernoulli mit der Transformation geschieht, ist dies nicht genau das Ziel. Ziel ist es, eine gleichmäßige und nicht nur eine varianzstabilisierende Verteilung zu erreichen.
Erinnern Sie sich daran, dass einer der Hauptzwecke bei der Verwendung von Jeffreys Prior darin besteht, dass er während der Transformation invariant ist. Das heißt, wenn Sie die Variable neu parametrieren, ändert sich der Prior nicht.
1.
Somit ist ; die gleichmäßige Verteilung auf . Aus diesem Grund wird die -Transformation verwendet, so dass die Umparametrierung zu einer gleichmäßigen Verteilung führt. Die gleichmäßige Verteilung ist jetzt Jeffreys prior auf (da Jeffreys prior bei der Transformation invariant ist). Dies beantwortet Ihre erste Frage.θ ( 0 , π/ 2) Sünde2( θ ) θ
2.
In der Bayes'schen Analyse wird häufig eine einheitliche Prioritätsstufe gewünscht, wenn nicht genügend Informationen oder Vorkenntnisse über die Verteilung der Parameter vorliegen. Ein solcher Prior wird auch als "diffuser Prior" oder "Standardprior" bezeichnet. Die Idee ist, keinen Wert im Parameterraum mehr als andere Werte festzuschreiben. In einem solchen Fall ist der Posterior dann vollständig von der Datenwahrscheinlichkeit abhängig. Da
Wenn die Transformation derart ist, dass der transformierte Raum begrenzt ist (wie in diesem Beispiel), ist die gleichmäßige Verteilung richtig. Wenn der transformierte Raum nicht begrenzt ist, ist der Uniform-Prior nicht richtig, aber oft ist der resultierende hintere korrekt. Man sollte jedoch immer überprüfen, ob dies der Fall ist.( 0 , π/ 2)
quelle