Was ist / sind die impliziten Prioritäten in der frequentistischen Statistik?

19

Ich habe die Vorstellung gehört, dass Jaynes behauptet, Frequentisten würden mit einem "impliziten Prior" operieren.

Was ist oder sind diese impliziten Prioritäten? Bedeutet dies, dass frequentistische Modelle alle Sonderfälle von Bayes'schen Modellen sind, die darauf warten, gefunden zu werden?

Bayesquest
quelle
Der implizite Prior ist eine entartete Verteilung, die die gesamte Wahrscheinlichkeitsmasse auf , den Parameter, den der Bayes'sche Frequentist zu schätzen versucht. θ
Dilip Sarwate
3
Soweit ich weiß, gibt es kein frequentistisches oder bayesianisches Modell, es gibt nur Modelle und unterschiedliche Herangehensweisen an sie.
Andrey Kolyadin
3
@ DilipSarwate: Ich bin mit dieser Aussage nicht einverstanden. Die vorherige Verwendung einer Dirac-Masse führt nicht zu häufigen Eingriffen. Das Bayes'sche Paradigma erlaubt keine Prioritäten mit unbekannten Parametern, es sei denn, Sie setzen einen anderen vor diesen Parametern.
Xi'an
2
Es gibt immer einen Prior, egal was passiert. Leider erfordern alle statistischen Verfahren einen Ad-hoc-Ausgangspunkt, der sie sehr willkürlich macht. Das Gute ist, dass Sie mit genügend Daten und korrekter Methodik Ihrem Ziel nahe kommen. Das Schlimme ist, wie weit Sie vom Ziel entfernt sind, hängt davon ab, wo Sie beginnen und wie viele Daten Sie zur Hand haben.
Cagdas Ozgenc
2
@Cagdas Ozgenc: Nein, es gibt immer Annahmen , aber sie müssen nicht in Form von vorherigen Verteilungen vorliegen.
kjetil b halvorsen

Antworten:

17

In der frequentistischen Entscheidungstheorie gibt es vollständige Klassenergebnisse , die zulässige Prozeduren als Bayes-Prozeduren oder als Grenzen von Bayes-Prozeduren charakterisieren . Zum Beispiel sagt Stein notwendige und ausreichende Bedingung (Stein. 1955; Farrell, 1968b), dass unter den folgenden Annahmen

  1. die Probendichte ist kontinuierlich in und strikt positiv auf ; undθ Θf(x|θ)θΘ
  2. die Verlustfunktion ist streng konvex, stetig und, wenn kompakt ist,LEΘ
    limδ+infθEL(θ,δ)=+.

ein Schätzer ist zulässig, wenn und nur wenn es existiertδ

  • eine Folge zunehmender kompakter Mengen, so dass ,(Fn)Θ=nFn
  • eine Folge endlicher Maße mit Unterstützung und(πn)Fn
  • eine Sequenz von Bayes-Schätzern, die mit assoziiert sind, so dass(δn)πn

    1. es existiert eine kompakte Menge so dassE0Θinfnπn(E0)1
    2. wenn kompakt ist, istEΘsupnπn(E)<+
    3. limnr(πn,δ)r(πn)=0 und
    4. limnR(θ,δn)=R(θ,δ) .

[nach meinem Buch, Bayesian Choice , Theorem 8.3.0, S.407]

In diesem eingeschränkten Sinne ist die häufig auftretende Eigenschaft der Zulässigkeit mit einem Bayes'schen Hintergrund versehen, wodurch jedem zulässigen Schätzer ein implizites Prior (oder eine Sequenz davon) zugeordnet wird.

Nebenbemerkung: In einem traurigen Zufall starb Charles Stein am 25. November in Palo Alto, Kalifornien. Er war 96 Jahre alt.

Es gibt ein ähnliches (wenn mathematisch beteiligt) Ergebnis für invariant oder äquivariante Schätzungs, nämlich , daß die der beste äquivariante Schätzer ist eine Bayes - Schätzeinrichtung für jede transitive Gruppe auf einem statistisches Modell handeln, die mit der rechten Haar Maßnahme , induzierte on von dieser Gruppe und der entsprechende invariante Verlust. Siehe Pitman (1939), Stein (1964) oder Zidek (1969) für die beteiligten Details. Dies ist höchstwahrscheinlich das, was Jaynes im Sinn hatte, als er mit Nachdruck über die Auflösung der Marginalisierungsparadoxien durch Invarianzprinzipien argumentierte .πΘ

Darüber hinaus ist, wie in der Antwort von civilstat ausgeführt , ein weiterer häufig verwendeter Optimalitätsbegriff, nämlich die Minimaxität, ebenfalls mit Bayes'schen Verfahren verbunden, da das Minimax-Verfahren, das den maximalen Fehler (über den Parameterraum) minimiert, häufig das Maximin-Verfahren ist, das den minimalen Fehler maximiert ( über alle früheren Distributionen), ist daher eine Bayes-Prozedur oder ein Limit von Bayes-Prozeduren.

F .: Kann ich meine bayesianische Intuition mithilfe eines kernigen Imbisses auf frequentistische Modelle übertragen?

Zunächst würde ich vermeiden, den Begriff "frequentistisches Modell" zu verwenden, da es Stichprobenmodelle (die Daten sind eine Realisierung von für einen Parameterwert )xXf(x|θ)θ und frequentistische Verfahren (bester unverzerrter Schätzer, Minimum) gibt Varianz-Konfidenzintervall & tc.)Zweitens sehe ich keinen zwingenden methodischen oder theoretischen Grund dafür, frequentistische Methoden als grenzwertig oder einschränkend für Bayes'sche Methoden zu betrachten. Die Rechtfertigung für ein häufig vorkommendes Verfahren besteht darin, eine gewisse Optimalitätseigenschaft im Abtastraum zu erfüllen, dh wenn die Beobachtungen wiederholt werden. Die primäre Rechtfertigung für Bayes'sche Verfahren besteht darin, [unter einem bestimmten Kriterium oder einer bestimmten Verlustfunktion] bei einer vorherigen Verteilung und einer Realisierung aus dem Stichprobenmodell optimal zu sein. Manchmal erfüllt die resultierende Prozedur eine häufig vorkommende Eigenschaft (die zu % glaubwürdige Region ist eine zu % vertrauenswürdige Region)9595 , dies ist jedoch der Fall, weil diese Optimalität nicht auf alle mit dem Bayes'schen Modell verbundenen Prozeduren übertragen wird.

Xi'an
quelle
1
Vielen Dank. Gibt es als Neuling eine gute Möglichkeit, meine bayesianische Intuition auf frequentistische Models zu übertragen? dh (diese GLM ähnelt x mit y vor, oder dieses Lasso ist wie das bayesianische xyz).
Bayesquest
1
Würde es Ihnen auch etwas ausmachen , sich meine andere Frage hier anzusehen : stats.stackexchange.com/questions/247850/… Ich weiß, dass Sie einige Lösungen für das Problem der Bayes'schen Sprödigkeit vorgeschlagen haben ... aber ich habe das Gefühl, dass die Lösungen nicht robust sind oder einfach zu handhaben für einen Sozialwissenschaftler.
Bayesquest
1
Für den ersten Kommentar sind hier einige Beispiele von dem, worüber ich sprach: - Neuronale Netze und GPs - stats.stackexchange.com/questions/71782/… - sumsar.net/blog/2015/04/… - [Ein nichtparametrischer Bayesianer (npB) pointof-view erlaubt die Interpretation von Wäldern als eine Probe von einem hinteren Baum über] ( arxiv.org/pdf/1502.02312.pdf )
Bayesquest
Wir haben an der Approximate Bayesian Inference mit zufälligen Wäldern gearbeitet und festgestellt, dass die Variabilität, die sich aus diesem Werkzeug ergibt, nicht mit dem ursprünglichen posterior zusammenhängt. Das bedeutet natürlich nicht, dass es keine Bayes'sche Interpretation zulässt, aber trotzdem ...
Xi'an
12

@ Xi'an Antwort ist vollständiger. Aber da Sie auch nach einem kernigen Mitnehmer gefragt haben, ist hier einer. (Die Konzepte, die ich erwähne, stimmen nicht genau mit den obigen Zulässigkeitseinstellungen überein.)

Häufig (aber nicht immer) verwenden Schätzer, die "Minimax" sind: Wenn ich schätzen möchte, sollte das schlechteste Risiko meines Schätzers besser sein als das schlechteste Risiko jedes anderen Schätzers . Es stellt sich heraus, dass MLEs häufig (ungefähr) Minimax sind. Details finden Sie zB hier oder hier .θθ^

Um den Minimax - Schätzer für ein Problem zu finden, ist ein Weg , Bayesian für einen Moment zu denken und das „ungünstigste vor“ finden . Dies ist der Prior, dessen Bayes-Schätzer ein höheres durchschnittliches Risiko aufweist als der Bayes-Schätzer eines anderen Prior. Wenn Sie es finden können, stellt sich heraus, dass Bayes-Schätzer der Minimax ist.ππ

In diesem Sinne könnte man mit Bedacht sagen: Ein (Minimax-verwendender) Frequentist ist wie ein Bayesianer, der einen ungünstigen Prior gewählt hat.

Vielleicht könnten Sie dies so ausdehnen, um zu sagen: Ein solcher Frequentist ist ein konservativer Bayesianer, der keine subjektiven oder gar nicht informativen, sondern (in diesem speziellen Sinne) Worst-Case-Priors auswählt.

Schließlich ist es, wie andere gesagt haben, schwierig, Frequentisten und Bayesianer auf diese Weise zu vergleichen. Ist ein frequentistischen Sein nicht unbedingt bedeuten , dass Sie verwenden einen bestimmten Schätzer. Dies bedeutet lediglich, dass Sie Fragen zu den Stichproben-Eigenschaften Ihres Schätzers stellen, wobei diese Fragen nicht die höchste Priorität von Bayesian haben. (Jeder Bayesianer, der auf gute Sampling-Eigenschaften hofft, z. B. "kalibrierte Bayes", ist auch ein Frequentist.)
Auch wenn Sie einen Frequentisten als einen definieren, dessen Schätzer immer optimale Sampling-Eigenschaften haben, gibt es viele solcher Eigenschaften, und Sie können es nicht immer treffe sie alle auf einmal. Daher ist es schwierig, allgemein von "allen Frequentist-Modellen" zu sprechen.

civilstat
quelle
3
Ich dachte, dass ein impliziter Prior für eine frequentistische Analyse ein einheitlicher Prior wäre.
Michael R. Chernick
4
Es kann manchmal sein. Sie können sich ein MLE als die MAP-Schätzung vorstellen, bei der ein einheitlicher Prior verwendet wird. MLEs sind jedoch nicht das einzige Tool, das von Frequentisten verwendet wird.
Civilstat
Ein weiteres verwandtes Konzept: "Matching Priors" oder "Probability Matching Priors", bestimmte Priors, die für Ihr glaubwürdiges Intervall entworfen wurden, stimmen ungefähr mit dem frequentistischen Konfidenzintervall für diesen bestimmten Parameter überein . Auch diese können einheitlich sein, müssen es aber nicht sein. Hängt von der Wahl des Parameters und davon ab, wie gut die Approximation sein soll. Siehe zum Beispiel utstat.utoronto.ca/reid/research/vaneeden.pdf1α1α
civilstat