Warum sollte jemand einen Bayes'schen Ansatz mit einem "nicht informativen" unangemessenen Vorgänger anstelle des klassischen Ansatzes verwenden?

44

Wenn das Interesse lediglich die Parameter eines Modells schätzt (punktweise und / oder Intervallschätzung) und die vorherigen Informationen nicht zuverlässig und schwach sind (ich weiß, dass dies ein bisschen vage ist, aber ich versuche, ein Szenario zu etablieren, in dem die Wahl von a Prior ist schwierig) ... Warum sollte sich jemand dafür entscheiden, den Bayes'schen Ansatz mit "nicht informativen" unpassenden Prioritäten anstelle des klassischen Ansatzes zu verwenden?


quelle
1
Vielen Dank für so interessante Gedanken zu diesem umstrittenen Teil der Bayes'schen Statistik. Ich habe deine Punkte gelesen und verglichen. Es gibt interessante Argumente, die seine Verwendung in Bezug auf formale Regeln, Praktikabilität und Interpretation bestätigen. Ich werde irgendwann eine Antwort auswählen, aber ich befürchte, dass dies eine sehr schwierige Aufgabe sein wird.

Antworten:

24

Zwei Gründe, warum man sich für einen Bayesianischen Ansatz entscheiden kann, selbst wenn Sie nicht informative Prioritäten verwenden:

  • Konvergenzprobleme. Es gibt einige Distributionen (Binomial-, Negativ-Binomial- und Generalized-Gamma-Distributionen, mit denen ich am besten vertraut bin), bei denen Konvergenzprobleme nicht immer unerheblich sind. Sie können ein "Bayes'sches" Framework und bestimmte Markov-Chain-Monte-Carlo-Methoden (MCMC) verwenden, um diese Konvergenzprobleme im Wesentlichen mit Rechenleistung zu durchforsten und von ihnen vernünftige Schätzungen zu erhalten.
  • Interpretation. Eine Bayes'sche Schätzung + 95% glaubwürdiges Intervall ist intuitiver zu interpretieren als eine Frequentist-Schätzung + 95% Konfidenzintervall.
Fomite
quelle
3
MCMC ist keine wirklich bayesianische Methode. Sie könnten einfach Schätzungen von Ihrer Zielwahrscheinlichkeit (nicht von hinten) ableiten, wenn Konvergenz das Problem ist.
Scottyaz
16

Obwohl die Ergebnisse sehr ähnlich sein werden, unterscheiden sich ihre Interpretationen.

Konfidenzintervalle implizieren den Gedanken, ein Experiment viele Male zu wiederholen und in der Lage zu sein, den wahren Parameter 95% der Male zu erfassen. Sie können jedoch nicht sagen, dass Sie eine Chance von 95% haben , es zu erfassen.

Glaubwürdige Intervalle (Bayes-Intervalle) hingegen lassen den Schluss zu, dass die Wahrscheinlichkeit, dass das Intervall den wahren Wert erfasst, bei 95% liegt. Update: Ein Bayes'scher Ausdruck wäre, dass Sie zu 95% zuversichtlich über Ihre Ergebnisse sind.

Dies liegt nur daran, dass Sie mithilfe der Baye-Regel von zu gewechselt sind.P ( H y p o t h e s i s | D a t a )P(Data|Hypothesis)P(Hypothesis|Data)

Dominic Comtois
quelle
1
Ich mag hier verwirrt sein, aber wie passt "der wahre Wert" in ein Bayes'sches Gerüst? Vielleicht beziehen Sie sich auf den posterioren Modus (oder meinen, oder ... usw.)?
Makro
Ich beziehe mich auf jeden Parameter (Bevölkerungswert), den Sie mit Ihrer Stichprobenstatistik schätzen, sei es ein Mittelwert, ein Mittelwertunterschied, eine Regressionssteigung ... Kurz gesagt, was Sie suchen.
Dominic Comtois
1
Ja, aber bedeutet "wahrer Wert" nicht, dass der Parameter eine Konstante ist (dh seine Verteilung ist eine Punktmasse)? Das gesamte Konzept der Betrachtung der posterioren Verteilung scheint nicht mit der Betrachtung von Parametern auf diese Weise übereinzustimmen.
Makro
9

Ich glaube, ein Grund dafür ist, dass eine Bayes'sche Analyse eine vollständige posteriore Verteilung ergibt. Dies kann zu detaillierteren Intervallen als dem typischen Frequentist . Ein zutreffendes Zitat von Reis und Stedinger 2005 lautet:±2σ

Die Bereitstellung einer vollständigen posterioren Verteilung der Parameter ist ein Vorteil des Bayes'schen Ansatzes - gegenüber klassischen Methoden, die in der Regel nur eine Punktschätzung der durch den Modus der Wahrscheinlichkeitsfunktion dargestellten Parameter liefern und dabei asymptotische Normalitätsannahmen und eine quadratische Approximation verwenden der Log-Likelihood-Funktion zur Beschreibung von Unsicherheiten. Mit dem Bayes'schen Gerüst muss keine Annäherung verwendet werden, um die Unsicherheiten zu bewerten, da die vollständige posteriore Verteilung der Parameter verfügbar ist. Darüber hinaus kann eine Bayes'sche Analyse glaubwürdige Intervalle für Parameter oder jede Funktion der Parameter liefern, die leichter zu interpretieren sind als das Konzept des Konfidenzintervalls in der klassischen Statistik (Congdon, 2001).

So können Sie beispielsweise glaubwürdige Intervalle für die Differenz zwischen zwei Parametern berechnen.

Wayne
quelle
6

Sir Harold Jeffreys war ein starker Befürworter des Bayesianischen Ansatzes. Er zeigte, dass die resultierende Bayes'sche Folgerung bei Verwendung diffuser inkorrekter Prioritäten mit dem Ansatz der frequentistischen Inferenz übereinstimmt (dh, dass glaubwürdige Bayes'sche Regionen mit den Intervallen der frequentistischen Konfidenz übereinstimmen). Die meisten Bayesianer befürworten angemessene informative Prioritäten. Es gibt Probleme mit unangemessenen Vorgesetzten und einige können argumentieren, dass kein Vorgesetzter wirklich nicht informativ ist. Ich denke, dass die Bayesianer, die diese Jeffreys 'Vorgänger benutzen, es als Anhänger von Jeffreys tun. Dennis Lindley , einer der stärksten Befürworter des Bayesianischen Ansatzes, hatte großen Respekt vor Jeffreys, befürwortete jedoch informative Prioritäten.

Michael Chernick
quelle
1
+1 für die ersten paar Zeilen Ihrer Antwort. Meiner Meinung nach ist der Grund, einen Jeffreys-Prior einem "nicht informativen" Prior vorzuziehen, nicht einfach ein Anhänger von Jeffreys. Es ist, weil es wirklich so ist, als würde man keine Annahme machen, während ein sogenannter nicht informativer Prior eine Annahme über die Parametrisierung macht.
Neil G
1
@NeilG Ich habe auch festgestellt, dass manche Leute sie gerne als "Fail Frequentist" (im gleichen Sinne wie "Fail Safe") verwenden, wenn sie nicht informative Prioritäten verwenden, so dass sie von einem naiven Leser interpretiert werden können.
Fomite
@EpiGrad: Was meinst du? (Es tut mir leid, ich verstehe die Frequentist-Statistik nur sehr schlecht.)
Neil G,
1
@NeilG Wenn Sie im Wesentlichen die Vorteile eines Jeffrey Prior ausnutzen, werden Sie feststellen, was jemand erwartet, der auf dem Gebiet der Frequentisten ausgebildet ist. Es ist ein anständiger Mittelweg, wenn die Arbeit mit plazierten Bayes'schen Methoden nicht viel erreicht hat.
Fomite
@NeilG Ich habe auch vergessen, dass, wie in meiner Antwort, der Jeffrey Prior auch hilfreich ist , wenn Sie MCMC verwenden, um eine häufig auftretende Analyse durchzuführen und Konvergenzprobleme zu umgehen .
Fomite
6

Der Bayes'sche Ansatz hat praktische Vorteile. Es hilft bei der Schätzung, die oft obligatorisch ist. Und es ermöglicht neuartige Modellfamilien und hilft bei der Konstruktion komplizierterer (hierarchischer, mehrstufiger) Modelle.

Beispielsweise erhält man bei gemischten Modellen (einschließlich zufälliger Effekte mit Varianzparametern ) bessere Schätzungen, wenn Varianzparameter durch Marginalisierung über Parameter auf niedrigerer Ebene (Modellkoeffizienten; dies wird als REML bezeichnet ) geschätzt werden . Der Bayes'sche Ansatz tut dies natürlich. Bei diesen Modellen sind selbst bei REML die Schätzungen der maximalen Wahrscheinlichkeit (Maximum Probability, ML) von Varianzparametern häufig null oder abwärts gerichtet. Ein geeigneter Prior für die Varianzparameter hilft.

Auch wenn die Punktschätzung ( MAP , Maximum a posteriori) verwendet wird, ändern die Prioritäten die Modellfamilie. Die lineare Regression mit einer großen Menge von etwas kollinearen Variablen ist instabil. Die L2-Regularisierung wird als Abhilfe verwendet, ist jedoch als Bayes'sches Modell mit vorheriger (nicht informativer) Gauß'scher Schätzung und MAP-Schätzung interpretierbar. (L1-Regularisierung ist ein anderer Prior und liefert unterschiedliche Ergebnisse. Eigentlich mag der Prior hier etwas informativ sein, aber es geht um die kollektiven Eigenschaften der Parameter, nicht um einen einzelnen Parameter.)

Es gibt also einige gebräuchliche und relativ einfache Modelle, bei denen ein Bayes'scher Ansatz erforderlich ist, um die Sache zu erledigen!

Kompliziertere Modelle wie die latente Dirichlet-Zuordnung (LDA) beim maschinellen Lernen sprechen für sich . Einige Modelle sind von Natur aus bayesianisch, z. B. solche, die auf Dirichlet-Prozessen basieren .

Scellus
quelle
6

Wir könnten uns für immer über Inferenzgrundlagen streiten, um beide Ansätze zu verteidigen, aber lassen Sie mich etwas anderes vorschlagen. Ein Grund, eine Bayes'sche Analyse einer klassischen zeigt sich deutlich darin, wie beide Ansätze mit der Vorhersage umgehen. Nehmen wir an, wir haben den üblichen bedingten Fall. Klassischerweise wird eine prädiktive Dichte definiert, die den Wert einer Schätzung des Parameters in die bedingte Dichte . Diese klassische prädiktive Dichte berücksichtigt nicht die Unsicherheit der Schätzungpracticalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^: Zwei gleiche Punktschätzungen mit völlig unterschiedlichen Konfidenzintervallen ergeben die gleiche Vorhersagedichte. Andererseits berücksichtigt die Bayes'sche prädiktive Dichte die Unsicherheit über den Parameter unter Berücksichtigung der Informationen in einer Stichprobe von Beobachtungen automatisch, da

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
Zen
quelle
6
Es ist darauf hinzuweisen, dass im Kontext der linearen Regression mit normalen Fehlern die Frequentist-Vorhersageintervalle eher auf zulassungsrelevanten Statistiken als auf Plug-in-Schätzern basieren und mit den Bayes-Intervallen unter den typischen nicht-informativen Prioritäten identisch sind (gemeinsam flach auf den s) und ). l o g ( σ 2 )βlog(σ2)
Cyan
Bezogen auf @ Cyan Kommentar.
4

Es gibt verschiedene Gründe:

  1. In vielen Situationen ist die Erstellung von Teststatistiken oder Konfidenzintervallen recht schwierig, da normale Annäherungen - auch nach Verwendung einer geeigneten Verknüpfungsfunktion - mit für Situationen mit geringen Datenmengen häufig nicht gut funktionieren. Indem Sie Bayesian Inference mit uninformativen Priors verwenden, die über MCMC implementiert wurden, können Sie dies umgehen (Vorsichtsmaßnahmen siehe unten).±SE
  2. Die Eigenschaften einer großen Stichprobe sind normalerweise mit einem entsprechenden Ansatz für Frequentisten völlig identisch.
  3. Unabhängig davon, wie viel wir tatsächlich wissen, ist es oftmals sehr zurückhaltend, Prioritäten zu vereinbaren, aus Angst, beschuldigt zu werden, „nicht objektiv zu sein“. Wenn Sie nicht informative Prioritäten („keine Prioritäten“) verwenden, können Sie so tun, als gäbe es kein solches Problem, wodurch Kritik von einigen Rezensenten vermieden wird.

Was nun die Nachteile der Verwendung von nicht informativen Prioritäten angeht, beginne ich mit dem, was ich für das Wichtigste halte, und gehe dann auf einige der ebenfalls recht wichtigen technischen Aspekte ein:

  1. Die Interpretation dessen, was Sie erhalten, ist, ganz ehrlich gesagt, ähnlich wie bei häufigem Rückschluss. Sie können Ihre häufig auftretende Maximum-Likelihood-Inferenz nicht einfach als Bayes'sche Maximum-a-posteriori-Inferenz umbenennen und behaupten, dies enthebt Sie jeglicher Besorgnis über Mehrfachvergleiche, Mehrfachbetrachtungen der Daten und lässt Sie alle Aussagen im Hinblick auf die Wahrscheinlichkeit interpretieren, dass eine Hypothese vorliegt ist wahr. Sicher, Typ-I-Fehler und so weiter sind häufig vorkommende Konzepte, aber wir als Wissenschaftler sollten uns darum kümmern, falsche Behauptungen aufzustellen, und wir wissen, dass das oben Genannte Probleme verursacht. Viele dieser Probleme verschwinden (oder sind zumindest weitaus weniger problematisch), wenn Sie Dinge in ein hierarchisches Modell einbetten / etwas empirisches tun. In der Regel geht es jedoch darum, über das Analyseverfahren implizit Prioritäten zu generieren, indem Sie die Grundlage für Ihre Prioritäten in Ihr Modell aufnehmen (alternativ dazu können Sie Prioritäten explizit formulieren). Diese Überlegungen werden meines Erachtens häufig ignoriert, um Bayes'sches P-Hacking durchzuführen (dh Multiplizität einzuführen, aber es zu ignorieren), mit der Ausrede, dass dies kein Problem ist, wenn Sie Bayes'sche Methoden anwenden (alle Bedingungen auslassen, die dazu führen würden) erfüllt sein müssen).
  2. Auf der eher "technischen" Seite sind nicht informative Priors problematisch, da Ihnen kein richtiger Posterior garantiert wird. Viele Menschen haben Bayesianische Modelle mit nicht informativen Priors ausgestattet und nicht erkannt, dass der Posterior nicht richtig ist. Als Ergebnis wurden MCMC-Proben erzeugt, die im Wesentlichen bedeutungslos waren.

Der letzte Punkt ist ein Argument dafür, eher vage (oder etwas schwächer informative) Priors zu bevorzugen, die für einen richtigen Seitenzahn sorgen. Zugegeben, es kann manchmal auch schwierig sein, Proben daraus zu entnehmen, und es kann schwierig sein zu bemerken, dass der gesamte hintere Teil nicht erforscht wurde. Es wurde jedoch in vielen Bereichen gezeigt, dass Bayes'sche Methoden mit vagen (aber richtigen) Prioritäten aus einer häufig vorkommenden Perspektive wirklich gute Eigenschaften für kleine Stichproben haben, und Sie konnten dies mit Sicherheit als Argument für deren Verwendung sehen, während es mit etwas mehr Daten kaum möglich sein wird jeglicher Unterschied zu Methoden mit nicht informativen Prioritäten.

Björn
quelle