Wenn das Interesse lediglich die Parameter eines Modells schätzt (punktweise und / oder Intervallschätzung) und die vorherigen Informationen nicht zuverlässig und schwach sind (ich weiß, dass dies ein bisschen vage ist, aber ich versuche, ein Szenario zu etablieren, in dem die Wahl von a Prior ist schwierig) ... Warum sollte sich jemand dafür entscheiden, den Bayes'schen Ansatz mit "nicht informativen" unpassenden Prioritäten anstelle des klassischen Ansatzes zu verwenden?
44
Antworten:
Zwei Gründe, warum man sich für einen Bayesianischen Ansatz entscheiden kann, selbst wenn Sie nicht informative Prioritäten verwenden:
quelle
Obwohl die Ergebnisse sehr ähnlich sein werden, unterscheiden sich ihre Interpretationen.
Konfidenzintervalle implizieren den Gedanken, ein Experiment viele Male zu wiederholen und in der Lage zu sein, den wahren Parameter 95% der Male zu erfassen. Sie können jedoch nicht sagen, dass Sie eine Chance von 95% haben , es zu erfassen.
Glaubwürdige Intervalle (Bayes-Intervalle) hingegen lassen den Schluss zu, dass die Wahrscheinlichkeit, dass das Intervall den wahren Wert erfasst, bei 95% liegt. Update: Ein Bayes'scher Ausdruck wäre, dass Sie zu 95% zuversichtlich über Ihre Ergebnisse sind.
Dies liegt nur daran, dass Sie mithilfe der Baye-Regel von zu gewechselt sind.P ( H y p o t h e s i s | D a t a )P( D a t a | Hyp o t h e s i s ) P( Hyp o t h e s i s | D a t a )
quelle
Ich glaube, ein Grund dafür ist, dass eine Bayes'sche Analyse eine vollständige posteriore Verteilung ergibt. Dies kann zu detaillierteren Intervallen als dem typischen Frequentist . Ein zutreffendes Zitat von Reis und Stedinger 2005 lautet:±2σ
So können Sie beispielsweise glaubwürdige Intervalle für die Differenz zwischen zwei Parametern berechnen.
quelle
Sir Harold Jeffreys war ein starker Befürworter des Bayesianischen Ansatzes. Er zeigte, dass die resultierende Bayes'sche Folgerung bei Verwendung diffuser inkorrekter Prioritäten mit dem Ansatz der frequentistischen Inferenz übereinstimmt (dh, dass glaubwürdige Bayes'sche Regionen mit den Intervallen der frequentistischen Konfidenz übereinstimmen). Die meisten Bayesianer befürworten angemessene informative Prioritäten. Es gibt Probleme mit unangemessenen Vorgesetzten und einige können argumentieren, dass kein Vorgesetzter wirklich nicht informativ ist. Ich denke, dass die Bayesianer, die diese Jeffreys 'Vorgänger benutzen, es als Anhänger von Jeffreys tun. Dennis Lindley , einer der stärksten Befürworter des Bayesianischen Ansatzes, hatte großen Respekt vor Jeffreys, befürwortete jedoch informative Prioritäten.
quelle
Der Bayes'sche Ansatz hat praktische Vorteile. Es hilft bei der Schätzung, die oft obligatorisch ist. Und es ermöglicht neuartige Modellfamilien und hilft bei der Konstruktion komplizierterer (hierarchischer, mehrstufiger) Modelle.
Beispielsweise erhält man bei gemischten Modellen (einschließlich zufälliger Effekte mit Varianzparametern ) bessere Schätzungen, wenn Varianzparameter durch Marginalisierung über Parameter auf niedrigerer Ebene (Modellkoeffizienten; dies wird als REML bezeichnet ) geschätzt werden . Der Bayes'sche Ansatz tut dies natürlich. Bei diesen Modellen sind selbst bei REML die Schätzungen der maximalen Wahrscheinlichkeit (Maximum Probability, ML) von Varianzparametern häufig null oder abwärts gerichtet. Ein geeigneter Prior für die Varianzparameter hilft.
Auch wenn die Punktschätzung ( MAP , Maximum a posteriori) verwendet wird, ändern die Prioritäten die Modellfamilie. Die lineare Regression mit einer großen Menge von etwas kollinearen Variablen ist instabil. Die L2-Regularisierung wird als Abhilfe verwendet, ist jedoch als Bayes'sches Modell mit vorheriger (nicht informativer) Gauß'scher Schätzung und MAP-Schätzung interpretierbar. (L1-Regularisierung ist ein anderer Prior und liefert unterschiedliche Ergebnisse. Eigentlich mag der Prior hier etwas informativ sein, aber es geht um die kollektiven Eigenschaften der Parameter, nicht um einen einzelnen Parameter.)
Es gibt also einige gebräuchliche und relativ einfache Modelle, bei denen ein Bayes'scher Ansatz erforderlich ist, um die Sache zu erledigen!
Kompliziertere Modelle wie die latente Dirichlet-Zuordnung (LDA) beim maschinellen Lernen sprechen für sich . Einige Modelle sind von Natur aus bayesianisch, z. B. solche, die auf Dirichlet-Prozessen basieren .
quelle
Wir könnten uns für immer über Inferenzgrundlagen streiten, um beide Ansätze zu verteidigen, aber lassen Sie mich etwas anderes vorschlagen. Ein Grund, eine Bayes'sche Analyse einer klassischen zeigt sich deutlich darin, wie beide Ansätze mit der Vorhersage umgehen. Nehmen wir an, wir haben den üblichen bedingten Fall. Klassischerweise wird eine prädiktive Dichte definiert, die den Wert einer Schätzung des Parameters in die bedingte Dichte . Diese klassische prädiktive Dichte berücksichtigt nicht die Unsicherheit der Schätzungpractical θ^=θ^(x1,…,xn) Θ fXn+1∣Θ(xn+1∣θ) fXn+1∣Θ(xn+1∣θ^) θ^ : Zwei gleiche Punktschätzungen mit völlig unterschiedlichen Konfidenzintervallen ergeben die gleiche Vorhersagedichte. Andererseits berücksichtigt die Bayes'sche prädiktive Dichte die Unsicherheit über den Parameter unter Berücksichtigung der Informationen in einer Stichprobe von Beobachtungen automatisch, da
quelle
Es gibt verschiedene Gründe:
Was nun die Nachteile der Verwendung von nicht informativen Prioritäten angeht, beginne ich mit dem, was ich für das Wichtigste halte, und gehe dann auf einige der ebenfalls recht wichtigen technischen Aspekte ein:
Der letzte Punkt ist ein Argument dafür, eher vage (oder etwas schwächer informative) Priors zu bevorzugen, die für einen richtigen Seitenzahn sorgen. Zugegeben, es kann manchmal auch schwierig sein, Proben daraus zu entnehmen, und es kann schwierig sein zu bemerken, dass der gesamte hintere Teil nicht erforscht wurde. Es wurde jedoch in vielen Bereichen gezeigt, dass Bayes'sche Methoden mit vagen (aber richtigen) Prioritäten aus einer häufig vorkommenden Perspektive wirklich gute Eigenschaften für kleine Stichproben haben, und Sie konnten dies mit Sicherheit als Argument für deren Verwendung sehen, während es mit etwas mehr Daten kaum möglich sein wird jeglicher Unterschied zu Methoden mit nicht informativen Prioritäten.
quelle