Wann kann die häufig auftretende Stichprobenverteilung in Regressionseinstellungen nicht als Bayesian posterior interpretiert werden?

11

Meine eigentlichen Fragen sind in den letzten beiden Absätzen, aber um sie zu motivieren:

Wenn ich versuche, den Mittelwert einer Zufallsvariablen zu schätzen, die einer Normalverteilung mit einer bekannten Varianz folgt, habe ich gelesen, dass das Setzen einer Uniform vor dem Mittelwert zu einer posterioren Verteilung führt, die proportional zur Wahrscheinlichkeitsfunktion ist. In diesen Situationen überlappt sich das glaubwürdige Bayes'sche Intervall perfekt mit dem Konfidenzintervall des Frequentisten, und das Bayes'sche Maximum a posteriori-Schätzwert entspricht der Schätzung des Frequentisten-Maximum-Likelihood.

In einer einfachen linearen Regressionseinstellung

Y=Xβ+ϵ,ϵN(0,σ2)

Das Setzen eines einheitlichen Prior auf und eines inversen Gammas auf mit kleinen Parameterwerten führt zu einem posterioren , der dem Frequentist sehr ähnlich ist. und ein glaubwürdiges Intervall für die hintere Verteilung von , das dem Konfidenzintervall um die maximale Wahrscheinlichkeitsschätzung sehr ähnlich ist. Sie werden nicht exakt gleich sein, da der Prior auf einen geringen Einfluss ausübt und wenn die posteriore Schätzung über eine MCMC-Simulation durchgeführt wird, die eine weitere Quelle für Diskrepanzen einführt, aber das Bayes'sche glaubwürdige Intervall um denβσ2β^MAPβ^MLEβ|Xσ2β^MAPund das häufig auftretende Konfidenzintervall um wird ziemlich nahe beieinander liegen, und natürlich sollten sie mit zunehmender Stichprobengröße konvergieren, wenn der Einfluss der Wahrscheinlichkeit zunimmt, den des Vorgängers zu dominieren.β^MLE

Aber ich habe gelesen, dass es auch Regressionssituationen gibt, in denen diese nahezu Äquivalenzen nicht zutreffen. Zum Beispiel hierarchische Regressionen mit zufälligen Effekten oder logistische Regression - dies sind Situationen, in denen es meines Wissens keine "guten" Ziel- oder Referenzprioren gibt.

Meine allgemeine Frage lautet also: Angenommen, ich möchte aufP(β|X)und dass ich keine vorherigen Informationen habe, die ich einbeziehen möchte, warum kann ich in diesen Situationen nicht mit einer häufigen Maximum-Likelihood-Schätzung fortfahren und die resultierenden Koeffizientenschätzungen und Standardfehler als Bayes'sche MAP-Schätzungen und Standardabweichungen interpretieren und diese implizit behandeln "hintere" Schätzungen, die sich aus einem Prior ergeben, der "nicht informativ" gewesen sein muss, ohne zu versuchen, die explizite Formulierung des Prior zu finden, die zu einem solchen hinteren führen würde? Wann ist es im Bereich der Regressionsanalyse im Allgemeinen in Ordnung, in diese Richtung vorzugehen (die Wahrscheinlichkeit wie einen Seitenzahn zu behandeln) und wann ist es nicht in Ordnung? Was ist mit frequentistischen Methoden, die nicht auf der Wahrscheinlichkeit basieren, wie Quasi-Wahrscheinlichkeitsmethoden?

Hängen die Antworten davon ab, ob mein Inferenzziel Koeffizientenpunktschätzungen sind oder ob die Wahrscheinlichkeit, dass ein Koeffizient innerhalb eines bestimmten Bereichs liegt, oder von Mengen der Vorhersageverteilung?

Yakkanomica
quelle

Antworten:

6

Dies ist im Grunde eine Frage zu Werten und maximaler Wahrscheinlichkeit. Lassen Sie mich hier Cohen (1994) zitierenp

Was wir wissen wollen, ist "Angesichts dieser Daten, wie ist die Wahrscheinlichkeit, dass wahr ist?" Aber wie die meisten von uns wissen, sagt uns der [ Wert]: "Wenn wahr ist, wie ist die Wahrscheinlichkeit für diese (oder extremere) Daten?" Dies sind nicht die gleichen (...) p H 0H0pH0

Der Wert sagt uns also, was das , während wir an interessiert sind (siehe auch die Diskussion über das Fisherian vs Neyman-Pearson- Framework).P ( D | H 0 ) P ( H 0 | D )pP(D|H0)P(H0|D)

Vergessen wir für einen Moment die Werte. Die Wahrscheinlichkeit , unsere Daten zu beobachten einige Parameter angegeben ist die Wahrscheinlichkeitsfunktionθpθ

L(θ|D)=P(D|θ)

Das ist eine Sichtweise auf statistische Inferenz. Ein anderer Weg ist der Bayes'sche Ansatz, bei dem wir direkt (und nicht indirekt) etwas über lernen wollen, indem wir den Bayes-Satz verwenden und Prioritäten fürθP(θ|D)θ

P(θ|D)posteriorP(D|θ)likelihood×P(θ)prior

Wenn Sie sich nun das Gesamtbild ansehen, werden Sie feststellen, dass Werte und Wahrscheinlichkeit andere Fragen beantworten als die Bayes'sche Schätzung.p

Während die Schätzungen der maximalen Wahrscheinlichkeit mit den Schätzungen von MAP Bayes unter einheitlichen Prioritäten übereinstimmen sollten, müssen Sie sich daran erinnern, dass sie eine andere Frage beantworten.


Cohen, J. (1994). Die Erde ist rund (p <0,05). American Psychologist, 49, 997 & ndash ; 1003.

Tim
quelle
Vielen Dank für Ihre Antwort @Tim. Ich hätte klarer sein sollen - ich verstehe, dass P (D | H) und P (H | D) im Allgemeinen nicht gleich sind und dass Frequentisten und Bayesianer unterschiedliche Meinungen darüber haben, ob es angemessen ist, Wahrscheinlichkeitsverteilungen Parametern zuzuweisen ( oder Hypothesen allgemeiner). Ich frage nach Situationen, in denen die (häufig auftretende) Stichprobenverteilung eines Schätzers numerisch der (Bayes'schen) posterioren Verteilung des wahren Parameterwerts entspricht.
Yakkanomica
Fortsetzung meines vorherigen Kommentars: Sie haben geschrieben: "Während die Schätzungen der maximalen Wahrscheinlichkeit mit den Schätzungen von MAP Bayes unter einheitlichen Prioritäten übereinstimmen sollten", frage ich, ob es Situationen gibt, in denen diese Beziehung zusammenbricht - beides in Bezug auf die Wahrscheinlichkeit der Punktschätzungen und der Verteilungen um sie herum.
Yakkanomica
Ein letzter Nachtrag - Einige Leute würden sagen, dass die Haupttugend des Bayes'schen Ansatzes darin besteht, dass Vorkenntnisse flexibel integriert werden können. Für mich liegt der Reiz des Bayes'schen Ansatzes in der Interpretation - der Fähigkeit, einem Parameter eine Wahrscheinlichkeitsverteilung zuzuweisen. Die Notwendigkeit, Prioritäten anzugeben, ist ein Ärgernis. Ich möchte wissen, in welchen Situationen ich frequentistische Methoden anwenden kann, aber den Ergebnissen eine Bayes'sche Interpretation zuweisen, indem ich argumentiere, dass die frequentistischen und Bayes'schen Ergebnisse unter plausibel nicht informativen Prioritäten numerisch zusammenfallen.
Yakkanomica
2
@ Yakkanomica Ich verstehe, es ist eine interessante Frage, aber die einfache Antwort (wie oben angegeben) ist, dass Sie solche Interpretationen nicht vornehmen sollten, da die häufigsten Methoden die andere Frage beantworten als Bayesian. ML- und MAP-Punktschätzungen sollten übereinstimmen, aber die Konfidenzintervalle und der HDI können unterschiedlich sein und sollten nicht als Austauschbarkeit interpretiert werden.
Tim
Aber @Tim, es gibt Situationen, in denen sich die Konfidenzintervalle und der HDI überschneiden. Vergleichen Sie beispielsweise die ML-Schätzungen auf S.1906 mit den Bayes'schen posterioren Schätzungen (basierend auf einheitlichen Prioritäten für die Koeffizienten und IG vor der Skala) auf S.1908: PROC GENMOD-Beispiel . Die ML-Punktschätzung und die 95% -Konfidenzgrenzen sind der Bayes'schen posterioren Mittelwertschätzung und dem 95% -HPD-Intervall sehr ähnlich.
Yakkanomica