Ich verstehe, dass der Jeffreys-Prior unter Umparametrierung unveränderlich ist. Was ich jedoch nicht verstehe, ist, warum diese Eigenschaft gewünscht wird.
Warum möchten Sie nicht, dass sich das Vorher bei einem Variablenwechsel ändert?
Lassen Sie mich die Antwort von Zen vervollständigen. Ich mag den Begriff "Unwissenheit darstellen" nicht sehr. Wichtig ist nicht der Jeffreys Prior, sondern der Jeffreys Posterior . Dieser Posterior soll die Informationen über die durch die Daten hervorgerufenen Parameter so gut wie möglich widerspiegeln. Die Invarianzeigenschaft wird natürlich für die beiden folgenden Punkte benötigt. Betrachten wir zum Beispiel das Binomialmodell mit unbekanntem Anteil Parameter und Odds Parameter .θψ=θ1−θ
Der Jeffreys posterior auf spiegelt die Informationen über die von den Daten so gut wie möglich wider . Es gibt eine Eins-zu-Eins-Entsprechung zwischen und . Dann sollte die Umwandlung von Jeffreys posterior auf in ein posteriores auf (über die übliche Variablenänderungsformel) eine Verteilung ergeben, die die Informationen über ; so gut wie möglich widerspiegelt . Daher sollte diese Verteilung der Jeffreys posterior über . Dies ist die Invarianzeigenschaft.θθθψθψψψ
Ein wichtiger Punkt, um Schlussfolgerungen aus einer statistischen Analyse zu ziehen, ist die wissenschaftliche Kommunikation . Stellen Sie sich vor, Sie geben den Jeffreys posterior on einem wissenschaftlichen Kollegen. Aber er / sie interessiert sich eher für als für . Dann ist dies kein Problem mit der Invarianzeigenschaft: Er muss nur die Formel zum Ändern der Variablen anwenden.θψθ
Ah, das klärt die Dinge ein wenig auf. Aber gibt es einen intuitiv guten Grund, warum der hintere Wert für den Odds-Parameter mit dem hinteren Wert für den Proportional-Parameter identisch sein sollte? Das erscheint mir eher unnatürlich.
tskuzzy
Es ist nicht das Gleiche ! Das eine wird durch die Formel der Variablenänderung durch das andere induziert. Zwischen den beiden Parametern besteht eine Eins-zu-Eins-Entsprechung. Dann sollte die hintere Verteilung auf einem dieser Parameter die hintere Verteilung auf dem anderen induzieren.
Stéphane Laurent
2
(+1) Stéphane. Das OP scheint immer noch verwirrt zu sein, als er sagt "... sollte dasselbe sein ...". Die beiden Seitenzähne sind nicht "gleich". In Stéphanes Beispiel haben Sie beispielsweise ; Wenn Sie diese Art von Konsistenz mit (berechneten) Standard-Priors nicht haben, sind Ihre Priors ein wenig verrückt. P{1/3≤θ≤2/3∣X=x}=P{1/2≤ψ≤2∣X=x}
Zen
1
Ich denke, was in diesem Beitrag fehlt, ist, dass, wenn es viele Informationen in den Daten zu einem Parameter gibt, der jeweilige verwendete Prior keine Rolle spielt. Zum Beispiel macht ein binomisches Verhältnis, ob wir einen Uniform-, Jeffreys- oder Haldane-Prior verwenden, nur einen sehr geringen Unterschied, es sei denn, der hintere ist sehr breit. In diesem Fall ist es ein akademisches Argument, welches Prior "richtig" ist, da ohnehin keine aussagekräftigen Schlussfolgerungen gezogen werden können. Der wahre Wert eines nicht informativen Prior liegt in mehreren Dimensionen, aber dieses Problem wurde nicht gelöst - Jeffreys Prior ist hier schlecht.
Wahrscheinlichkeitslogik
3
Diese Theorie ist unvollständig und hängt von der Reihenfolge der Parameter, der Wahl des kompakten Bereichs und der Wahrscheinlichkeitsfunktion ab. So gehorcht es beispielsweise nicht dem Wahrscheinlichkeitsprinzip. Es ist auch schwierig, auf nicht unabhängige Daten anzuwenden. Bernardos Theorie ist nur für 1-d-Parameterprobleme vollständig. Es ist jedoch wahrscheinlich die beste derzeit verfügbare Methode. Ein guter Konkurrent ist der Transformationsgruppenansatz von Jaynes.
Wahrscheinlichkeitslogik
41
Angenommen, Sie und ein Freund analysieren denselben Datensatz mit einem normalen Modell. Sie nehmen die übliche Parametrisierung des Normalmodells unter Verwendung des Mittelwerts und der Varianz als Parameter an, aber Ihr Freund parametrisiert das Normalmodell vorzugsweise mit dem Variationskoeffizienten und der Präzision als Parameter (was vollkommen "legal" ist). Wenn Sie beide Jeffreys 'Priors verwenden, wird Ihre posterior Verteilung die posterior Verteilung Ihres Freundes sein, die ordnungsgemäß von seiner Parametrisierung auf Ihre transformiert wurde. In diesem Sinne ist der Prior der Jeffreys "invariant"
("Invariant" ist übrigens ein schreckliches Wort; wir meinen wirklich, dass es im gleichen Sinne von Tensorrechnung / Differentialgeometrie "kovariant" ist, aber natürlich hat dieser Begriff bereits eine gut begründete probabilistische Bedeutung. also können wir es nicht benutzen.)
Warum ist diese Konsistenz-Eigenschaft erwünscht? Denn wenn Jeffreys 'Vorgänger die Möglichkeit hat, Unwissenheit über den Wert der Parameter in einem absoluten Sinne darzustellen (tatsächlich nicht, aber aus anderen Gründen, die nicht mit "Invarianz" zusammenhängen) und Unwissenheit relativ zu einer bestimmten Parametrisierung Unabhängig davon, mit welchen Parametrisierungen wir willkürlich beginnen, müssen unsere Posterioren nach der Transformation "übereinstimmen".
Jeffreys selbst hat diese "Invarianz" -Eigenschaft routinemäßig verletzt, als er seine Prioren konstruierte.
Dieses Papier enthält einige interessante Diskussionen zu diesem und verwandten Themen.
+1: Gute Antwort. Aber warum repräsentiert der Vorgänger der Jeffreys keine Unkenntnis über den Wert der Parameter?
Neil G
4
Weil es nicht einmal eine Distribution ist. Es ist paradox zu behaupten, dass eine Distribution Unwissenheit widerspiegelt. Eine Distribution spiegelt immer Informationen wider.
@ StéphaneLaurent: Man muss etwas Glauben selbst in einem Zustand völliger Ignoranz. Was immer Ihr posterior ist, abzüglich der Wahrscheinlichkeit, die durch Ihre Daten verursacht wird, ist der Glaube, den Sie in diesem Zustand der Unwissenheit annehmen. Das intuitive Prinzip, das beachtet werden muss, wenn man sich für diese Überzeugung entscheidet, ist, dass sie bei Änderungen von Bezeichnungen (einschließlich Reparametrisierung) unveränderlich sein sollte. Ich bin mir nicht sicher, aber ich denke, dass allein dieses Prinzip (in all seinen möglichen Interpretationen - maximale Entropie, invariante Reparametrisierung usw.) immer den Glauben entscheidet.
Neil G
Wenn man also sagt, dass "eine Verteilung Unwissenheit widerspiegelt", bedeutet dies, dass die Verteilung mit diesem Prinzip übereinstimmt.
Neil G
12
Um ein paar Zitate zu Zens großartiger Antwort hinzuzufügen: Nach Jaynes ist der Jeffreys-Prior ein Beispiel für das Prinzip der Transformationsgruppen, das sich aus dem Prinzip der Gleichgültigkeit ergibt:
Die Essenz des Prinzips ist nur: (1) Wir erkennen, dass eine Wahrscheinlichkeitszuweisung ein Mittel ist, um einen bestimmten Wissenszustand zu beschreiben. (2) Wenn die verfügbaren Beweise uns keinen Grund geben, Satz als wahrscheinlicher oder unwahrscheinlicher als , können wir diesen Wissensstand nur ehrlich beschreiben, indem wir ihnen gleiche Wahrscheinlichkeiten zuweisen: . Jedes andere Verfahren wäre in dem Sinne inkonsistent, dass wir durch einen bloßen Austausch der Bezeichnungen ein neues Problem erzeugen könnten, bei dem unser Wissensstand derselbe ist, bei dem wir jedoch unterschiedliche Wahrscheinlichkeiten zuweisen ...A1A2p1=p2(1,2)
Beantworten Sie nun Ihre Frage: "Warum sollten Sie nicht möchten, dass sich das Vorher bei einer Änderung der Variablen ändert?"
Laut Jaynes ist die Parametrisierung eine andere Art von willkürlichem Label, und man sollte nicht in der Lage sein, durch „bloßen Austausch der Labels ein neues Problem zu erzeugen, bei dem unser Wissensstand derselbe ist, bei dem wir jedoch unterschiedliche Wahrscheinlichkeiten zuweisen. "
Xian erhielt eine Mail, in der Jaynes gelobt wurde : ceremade.dauphine.fr/~xian/critic.html Es ist schade, wenn Sie kein Französisch lesen, diese Mail ist sowohl beängstigend als auch lustig. Der Autor scheint verrückt geworden zu sein, weil er sich zu viele Gedanken über Bayes'sche Statistiken gemacht hat;)
Stéphane Laurent
1
@ StéphaneLaurent: Lies es jetzt. Dies ist absolut richtig: "Ich bestätige auf Seite 508" die Nichtwiederholbarkeit der meisten Experimente "ohne weiteres" auf der Suche nach optimalen fequentistischen Verfahren "auf Seite 512? Kommentar zu "choix Bayésien" (S. 517-518) - Pourquoi ne pas dire une fois pour toute qu'une probabilité n'est jamais une fréquence! "
Neil G
1
Auch: "Das Prinzip des Maximums der Entropie ist ein absolutes Fundament, das von vornherein als Voraussetzung für das Bestehen einer Bestandsaufnahme angesehen und für ausreichend befunden wird Das ist meine Position, die ich auch mit Théorie de l'Information, Mécanique Statistique, Thermodynamique… "beschrieben habe. Im Gegensatz zum Autor habe ich jedoch kein Interesse daran, Stunden zu investieren, um andere davon zu überzeugen, das zu akzeptieren, was ich so natürlich finde.
Neil G
4
Obwohl Jeffreys Priors oft von Interesse sind, wenn nur eine Referenz festgelegt werden soll, anhand derer andere Priors beurteilt werden sollen, können sie völlig unbrauchbar sein, beispielsweise wenn sie zu ungeeigneten Posteriors führen: Dies ist beispielsweise bei der einfachen Zweikomponenten-Gauß-Mischung der Fall
mit allen unbekannten Parametern. In diesem Fall existiert der hintere Teil des Jeffreys Prior nicht, egal wie viele Beobachtungen vorliegen. (Der Beweis ist in einem kürzlich erschienenen Artikel zu finden, den ich mit Clara Grazian geschrieben habe.)
Es gibt nur die Form der Verteilung an. es sagt Ihnen nicht, was seine Parameter sein sollten.
Sie sind nie völlig ahnungslos - es gibt immer etwas an dem Parameter, den Sie kennen (z. B. kann er oft nicht unendlich sein). Verwenden Sie es für Ihre Schlussfolgerung, indem Sie eine vorherige Verteilung definieren. Lüge dich nicht an, indem du sagst, dass du nichts weißt.
"Invarianz unter Transformation" ist keine wünschenswerte Eigenschaft. Ihre Wahrscheinlichkeit ändert sich während der Transformation (z. B. durch den Jakobianer). Dies schafft keine "neuen Probleme", tempo Jaynes. Warum sollte der Prior nicht gleich behandelt werden?
Antworten:
Lassen Sie mich die Antwort von Zen vervollständigen. Ich mag den Begriff "Unwissenheit darstellen" nicht sehr. Wichtig ist nicht der Jeffreys Prior, sondern der Jeffreys Posterior . Dieser Posterior soll die Informationen über die durch die Daten hervorgerufenen Parameter so gut wie möglich widerspiegeln. Die Invarianzeigenschaft wird natürlich für die beiden folgenden Punkte benötigt. Betrachten wir zum Beispiel das Binomialmodell mit unbekanntem Anteil Parameter und Odds Parameter .θ ψ=θ1−θ
Der Jeffreys posterior auf spiegelt die Informationen über die von den Daten so gut wie möglich wider . Es gibt eine Eins-zu-Eins-Entsprechung zwischen und . Dann sollte die Umwandlung von Jeffreys posterior auf in ein posteriores auf (über die übliche Variablenänderungsformel) eine Verteilung ergeben, die die Informationen über ; so gut wie möglich widerspiegelt . Daher sollte diese Verteilung der Jeffreys posterior über . Dies ist die Invarianzeigenschaft.θ θ θ ψ θ ψ ψ ψ
Ein wichtiger Punkt, um Schlussfolgerungen aus einer statistischen Analyse zu ziehen, ist die wissenschaftliche Kommunikation . Stellen Sie sich vor, Sie geben den Jeffreys posterior on einem wissenschaftlichen Kollegen. Aber er / sie interessiert sich eher für als für . Dann ist dies kein Problem mit der Invarianzeigenschaft: Er muss nur die Formel zum Ändern der Variablen anwenden.θ ψ θ
quelle
Angenommen, Sie und ein Freund analysieren denselben Datensatz mit einem normalen Modell. Sie nehmen die übliche Parametrisierung des Normalmodells unter Verwendung des Mittelwerts und der Varianz als Parameter an, aber Ihr Freund parametrisiert das Normalmodell vorzugsweise mit dem Variationskoeffizienten und der Präzision als Parameter (was vollkommen "legal" ist). Wenn Sie beide Jeffreys 'Priors verwenden, wird Ihre posterior Verteilung die posterior Verteilung Ihres Freundes sein, die ordnungsgemäß von seiner Parametrisierung auf Ihre transformiert wurde. In diesem Sinne ist der Prior der Jeffreys "invariant"
("Invariant" ist übrigens ein schreckliches Wort; wir meinen wirklich, dass es im gleichen Sinne von Tensorrechnung / Differentialgeometrie "kovariant" ist, aber natürlich hat dieser Begriff bereits eine gut begründete probabilistische Bedeutung. also können wir es nicht benutzen.)
Warum ist diese Konsistenz-Eigenschaft erwünscht? Denn wenn Jeffreys 'Vorgänger die Möglichkeit hat, Unwissenheit über den Wert der Parameter in einem absoluten Sinne darzustellen (tatsächlich nicht, aber aus anderen Gründen, die nicht mit "Invarianz" zusammenhängen) und Unwissenheit relativ zu einer bestimmten Parametrisierung Unabhängig davon, mit welchen Parametrisierungen wir willkürlich beginnen, müssen unsere Posterioren nach der Transformation "übereinstimmen".
Jeffreys selbst hat diese "Invarianz" -Eigenschaft routinemäßig verletzt, als er seine Prioren konstruierte.
Dieses Papier enthält einige interessante Diskussionen zu diesem und verwandten Themen.
quelle
Um ein paar Zitate zu Zens großartiger Antwort hinzuzufügen: Nach Jaynes ist der Jeffreys-Prior ein Beispiel für das Prinzip der Transformationsgruppen, das sich aus dem Prinzip der Gleichgültigkeit ergibt:
Beantworten Sie nun Ihre Frage: "Warum sollten Sie nicht möchten, dass sich das Vorher bei einer Änderung der Variablen ändert?"
Laut Jaynes ist die Parametrisierung eine andere Art von willkürlichem Label, und man sollte nicht in der Lage sein, durch „bloßen Austausch der Labels ein neues Problem zu erzeugen, bei dem unser Wissensstand derselbe ist, bei dem wir jedoch unterschiedliche Wahrscheinlichkeiten zuweisen. "
quelle
Obwohl Jeffreys Priors oft von Interesse sind, wenn nur eine Referenz festgelegt werden soll, anhand derer andere Priors beurteilt werden sollen, können sie völlig unbrauchbar sein, beispielsweise wenn sie zu ungeeigneten Posteriors führen: Dies ist beispielsweise bei der einfachen Zweikomponenten-Gauß-Mischung der Fall mit allen unbekannten Parametern. In diesem Fall existiert der hintere Teil des Jeffreys Prior nicht, egal wie viele Beobachtungen vorliegen. (Der Beweis ist in einem kürzlich erschienenen Artikel zu finden, den ich mit Clara Grazian geschrieben habe.)
quelle
Jeffreys Prior ist nutzlos . Das ist weil:
Benutz es einfach nicht.
quelle