Wahrscheinlichkeitsverhältnis vs Bayes-Faktor

61

Ich bin ziemlich evangelistisch in Bezug auf die Verwendung von Wahrscheinlichkeitsverhältnissen zur Darstellung der objektiven Beweise für / gegen ein bestimmtes Phänomen. Kürzlich habe ich jedoch erfahren, dass der Bayes-Faktor im Kontext der Bayes-Methoden eine ähnliche Funktion hat (dh der subjektive Prior wird mit dem objektiven Bayes-Faktor kombiniert, um einen objektiv aktualisierten subjektiven Glaubenszustand zu erhalten). Ich versuche jetzt, die rechnerischen und philosophischen Unterschiede zwischen einem Wahrscheinlichkeitsverhältnis und einem Bayes-Faktor zu verstehen.

Auf rechnerischer Ebene verstehe ich, dass, während das Wahrscheinlichkeitsverhältnis normalerweise unter Verwendung der Wahrscheinlichkeiten berechnet wird, die die maximale Wahrscheinlichkeit für die jeweilige Parametrisierung jedes Modells darstellen (entweder durch Kreuzvalidierung geschätzt oder je nach Modellkomplexität mit AIC bestraft), der Bayes-Faktor anscheinend irgendwie verwendet wird Wahrscheinlichkeiten, die die Wahrscheinlichkeit für jedes über den gesamten Parameterraum integrierte Modell darstellen (dh nicht nur am MLE). Wie wird diese Integration tatsächlich typischerweise erreicht? Versucht man wirklich nur, die Wahrscheinlichkeit für jede von Tausenden (Millionen?) Zufallsstichproben aus dem Parameterraum zu berechnen, oder gibt es analytische Methoden, um die Wahrscheinlichkeit über den Parameterraum hinweg zu integrieren? Bei der Berechnung des Bayes-Faktors

Und was sind die philosophischen Unterschiede zwischen dem Wahrscheinlichkeitsverhältnis und dem Bayes-Faktor (nb Ich frage nicht nach den philosophischen Unterschieden zwischen dem Wahrscheinlichkeitsverhältnis und den Bayes-Methoden im Allgemeinen, sondern nach dem Bayes-Faktor als Repräsentation der objektiven Beweise im Speziellen). Wie würde man die Bedeutung des Bayes-Faktors im Vergleich zum Wahrscheinlichkeitsverhältnis charakterisieren?

Mike Lawrence
quelle
5
Haben Sie das Beispiel in Wikipedia
Henry
1
Das Buch von Chen, Shao und Ibrahim (2000) widmet sich der Monte-Carlo-Berechnung von Bayes-Faktoren.
Xi'an

Antworten:

36

Anscheinend verwendet der Bayes-Faktor irgendwie Wahrscheinlichkeiten, die die Wahrscheinlichkeit jedes Modells repräsentieren, das über seinen gesamten Parameterraum integriert ist (dh nicht nur bei der MLE). Wie wird diese Integration tatsächlich typischerweise erreicht? Versucht man wirklich nur, die Wahrscheinlichkeit für jede von Tausenden (Millionen?) Zufallsstichproben aus dem Parameterraum zu berechnen, oder gibt es analytische Methoden, um die Wahrscheinlichkeit über den Parameterraum hinweg zu integrieren?

Erstens wird jede Situation, in der Sie einen Begriff wie für Daten und Modell in Betracht ziehen, als Wahrscheinlichkeitsmodell betrachtet . Dies ist häufig die Grundlage jeder statistischen Analyse, ob häufig oder bayesianisch, und dies ist der Teil, den Ihre Analyse entweder für eine gute oder für eine schlechte Übereinstimmung halten soll. Bayes-Faktoren unterscheiden sich also nicht grundlegend von den Wahrscheinlichkeitsverhältnissen.P(D|M)DM

Es ist wichtig, die Bayes-Faktoren richtig einzustellen. Wenn Sie beispielsweise zwei Modelle haben und von Wahrscheinlichkeiten zu Gewinnchancen konvertieren, verhalten sich die Bayes-Faktoren wie ein Operator bei früheren Überzeugungen:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

Der wirkliche Unterschied besteht darin, dass Wahrscheinlichkeitsverhältnisse billiger zu berechnen und im Allgemeinen konzeptionell einfacher zu spezifizieren sind. Die Wahrscheinlichkeit bei der MLE ist nur eine Punktschätzung des Bayes-Faktor-Zählers bzw. Nenners. Wie die meisten häufigeren Konstruktionen kann es als Spezialfall der Bayes'schen Analyse mit einem erfundenen Prior angesehen werden, der schwer zu erreichen ist. Aber meistens ist es entstanden, weil es analytisch nachvollziehbar und einfacher zu berechnen ist (in der Zeit, bevor ungefähre Bayes'sche Berechnungsansätze auftraten).

Was die Berechnung angeht, ja: Sie werden die verschiedenen Wahrscheinlichkeitsintegrale in der Bayes'schen Umgebung mit einem groß angelegten Monte-Carlo-Verfahren in nahezu jedem Fall von praktischem Interesse bewerten. Es gibt einige spezialisierte Simulatoren wie GHK, die funktionieren, wenn Sie bestimmte Verteilungen annehmen, und wenn Sie diese Annahmen treffen, können Sie manchmal analytisch nachvollziehbare Probleme finden, für die vollständig analytische Bayes-Faktoren existieren.

Aber niemand benutzt diese; Es gibt keinen Grund dafür. Mit optimierten Metropolis / Gibbs-Samplern und anderen MCMC-Methoden können diese Probleme vollständig datengesteuert angegangen und die Integrale numerisch berechnet werden. Tatsächlich wird man dies oft hierarchisch tun und die Ergebnisse über Meta-Prioritäten weiter integrieren, die sich auf Datenerfassungsmechanismen, nicht zu ignorierende experimentelle Designs usw. beziehen.

Ich empfehle dazu das Buch Bayesian Data Analysis . Obwohl sich der Autor Andrew Gelman anscheinend nicht allzu sehr für Bayes-Faktoren interessiert . Nebenbei stimme ich Gelman zu. Wenn Sie bayesianisch werden, dann nutzen Sie den vollen posterior aus. Die Modellauswahl mit Bayes'schen Methoden ist wie ein Handicap, da die Modellauswahl eine schwache und meist unbrauchbare Form der Inferenz ist. Ich würde es vorziehen, Verteilungen über Modellauswahl zu kennen, wenn ich kann ... Wer interessiert sich dafür, dass die Quantifizierung auf "Modell A ist besser als Modell B" Arten von Aussagen erfolgt, wenn dies nicht erforderlich ist?

Wendet man bei der Berechnung des Bayes-Faktors zusätzlich eine Korrektur für die Komplexität an (automatisch durch kreuzvalidierte Schätzung der Wahrscheinlichkeit oder analytisch durch AIC), wie dies bei der Wahrscheinlichkeitsrate der Fall ist?

Dies ist eines der schönen Dinge über Bayes'sche Methoden. Bayes-Faktoren erklären automatisch die Komplexität des Modells im technischen Sinne. Sie können ein einfaches Szenario mit zwei Modellen einrichten, und mit angenommenen Modellkomplexitäten bzw. , mit und einer Stichprobengröße . M 2 d 1 d 2 d 1 < d 2 NM1M2d1d2d1<d2N

Dann , wenn ist der Bayes - Faktor mit im Zähler, unter der Annahme , dass wahr ist , dass unter Beweis stellen kann als , nähert sich mit einer Rate, die vom Unterschied in der Modellkomplexität abhängt und bei der der Bayes-Faktor das einfachere Modell bevorzugt. Genauer gesagt können Sie zeigen, dass unter allen obigen Annahmen M 1 M 1 N B 1 , 2B 1 , 2 = O ( N 1B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

Ich kenne diese Herleitung und die Diskussion aus dem Buch Finite Mischung und Markov Switching Models von Sylvia Frühwirth-Schnatter, aber es gibt wahrscheinlich direktere statistische Berichte, die mehr auf die ihr zugrunde liegende Erkenntnistheorie eingehen.

Ich kenne die Details nicht gut genug, um sie hier zu nennen, aber ich glaube, dass es einige ziemlich tiefe theoretische Zusammenhänge zwischen dieser und der Ableitung von AIC gibt. Das Informationstheorie-Buch von Cover und Thomas deutete zumindest darauf hin.

Und was sind die philosophischen Unterschiede zwischen dem Wahrscheinlichkeitsverhältnis und dem Bayes-Faktor (nb Ich frage nicht nach den philosophischen Unterschieden zwischen dem Wahrscheinlichkeitsverhältnis und den Bayes-Methoden im Allgemeinen, sondern nach dem Bayes-Faktor als Repräsentation der objektiven Beweise im Speziellen). Wie würde man die Bedeutung des Bayes-Faktors im Vergleich zum Wahrscheinlichkeitsverhältnis charakterisieren?

Der Wikipedia-Artikel über "Interpretation" bietet eine gute Diskussionsgrundlage (insbesondere die Grafik, die Jeffreys 'Skala für die Stärke der Evidenz zeigt).

Wie üblich gibt es nicht allzu viel Philosophisches, außer den grundlegenden Unterschieden zwischen Bayes'schen Methoden und frequentistischen Methoden (mit denen Sie bereits vertraut zu sein scheinen).

Die Hauptsache ist, dass die Wahrscheinlichkeitsquote im niederländischen Buchsinn nicht kohärent ist. Sie können Szenarien erstellen, in denen die Modellauswahl anhand der Wahrscheinlichkeitsverhältnisse dazu führt, dass Sie Wetten akzeptieren, die verloren gehen. Die Bayes'sche Methode ist kohärent, arbeitet jedoch mit einem Prior, der extrem schlecht sein könnte und subjektiv gewählt werden muss. Kompromisse .. Kompromisse ...

FWIW, ich denke, diese Art der stark parametrisierten Modellauswahl ist keine sehr gute Schlussfolgerung. Ich bevorzuge Bayes'sche Methoden und ich bevorzuge es, sie hierarchischer zu organisieren, und ich möchte, dass sich die Folgerung auf die vollständige posteriore Verteilung konzentriert, wenn dies rechnerisch überhaupt machbar ist. Ich denke, Bayes-Faktoren haben einige gute mathematische Eigenschaften, aber als Bayesianer bin ich nicht davon beeindruckt. Sie verbergen den wirklich nützlichen Teil der Bayes'schen Analyse, der darin besteht, dass Sie gezwungen sind, mit Ihren Vorgesetzten im Freien umzugehen, anstatt sie unter den Teppich zu kehren, und dass Sie Rückschlüsse auf volle Vorgesetzte ziehen können.

ely
quelle
"Wie üblich gibt es nicht allzu viel Philosophisches, außer den grundlegenden Unterschieden zwischen Bayes'schen und frequentistischen Methoden (mit denen Sie bereits vertraut zu sein scheinen). Die Hauptsache ist, dass der Likelihood-Ratio-Test ..." Nur ein klarer Punkt, das habe ich nicht getan Ich habe nicht die Absicht, Bayes-Faktoren mit Likelihood-Ratio- Tests zu vergleichen , sondern mit Likelihood-Ratios für sich allein, ohne das Gepäck, mit dem die Frequentist / Null-Hypothese getestet wird.
Mike Lawrence
In meiner obigen Klarstellung: Daher scheint es mir, dass der große Unterschied zwischen BFs und LRs darin besteht, dass die ersteren, wie Sie sagen, die Komplexität automatisch korrigieren, aber viel Berechnung erfordern, während die letzteren viel weniger Berechnung erfordern, aber eine explizite Korrektur erfordern für die Modellkomplexität (entweder unter Verwendung von AIC, die rechenschnell ist, oder Kreuzvalidierung, die rechenintensiver ist).
Mike Lawrence
Entschuldigung, der Likelihood-Ratio- Test war ein Tippfehler, sollte nur Likelihood-Ratio gewesen sein. Ich denke, Sie haben größtenteils Recht, aber Sie vermissen immer noch das größere Bild, dass die Wahrscheinlichkeitsquote nur eine Punktschätzung ist. Es wird nur nützlich sein, wenn sich die zugrunde liegenden Wahrscheinlichkeitsverteilungen bis zu einer quadratischen Annäherung in der Nähe der MLE gut verhalten. Bayes-Faktoren müssen sich nicht um solche asymptotischen Verteilungseigenschaften kümmern, daher ist es spezifisch allgemeiner. Es subsumiert die MLE-basierte Modellauswahl.
ely
1
Anders ausgedrückt, der MLE kann als Maximum-A-Posteriori-Schätzer (MAP) angesehen werden, nur mit einem unzulässigen Prioritätswert (sofern die Integration dies zulässt), und der MAP ist eine überzeugendere Punktschätzung, da er vorherige Informationen enthält. Nun, anstatt nur den Modus des Seitenzahns auszuwählen ... warum nicht alle Werte des Seitenzahns gemäß ihrer vorherigen Wahrscheinlichkeit kombinieren? Es gibt Ihnen keine Punktschätzung der Parameter, aber die meisten Leute wollen keine Punktschätzung. Verteilungen über Parameter sind immer nützlicher als Punktschätzungen, wenn Sie es sich leisten können, sie zu erhalten
am
11

Um den Unterschied zwischen Likelihood-Verhältnissen und Bayes-Faktoren zu verstehen, ist es hilfreich, ein Schlüsselmerkmal der Bayes-Faktoren genauer zu betrachten:

Wie schaffen es Bayes-Faktoren, die Komplexität der zugrunde liegenden Modelle automatisch zu berücksichtigen?

Eine Perspektive zu dieser Frage ist die Betrachtung von Methoden zur deterministischen Approximation. Variational Bayes ist eine solche Methode. Dies kann nicht nur den Rechenaufwand für stochastische Näherungen (z. B. MCMC-Abtastung) drastisch verringern. Variations-Bayes liefern auch ein intuitives Verständnis dessen, was einen Bayes-Faktor ausmacht.

Denken Sie zunächst daran, dass ein Bayes-Faktor auf den Modellnachweisen zweier konkurrierender Modelle beruht.

BF1,2=p(dataM1)p(dataM2),

wo die einzelnen Modellnachweise durch ein kompliziertes Integral berechnet werden müssten:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

Dieses Integral wird nicht nur zur Berechnung eines Bayes-Faktors benötigt. es wird auch für Rückschlüsse auf die Parameter selbst benötigt, dh bei der Berechnung von .p(θdata,Mi)

Ein variativer Bayes-Ansatz mit fester Form adressiert dieses Problem, indem eine Verteilungsannahme über die bedingten Posterioren gemacht wird (z. B. eine Gaußsche Annahme). Dies macht ein schwieriges Integrationsproblem zu einem viel einfacheren Optimierungsproblem: dem Problem, die Momente einer ungefähren Dichte , die den wahren, aber unbekannten hinteren maximal ähnlich ist .q(θ)p(θdata,Mi)

Die Variationsrechnung sagt uns, dass dies durch Maximierung der sogenannten negativen freien Energie , die in direktem Zusammenhang mit dem logarithmischen Modellbeweis steht:F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

Daraus können Sie ersehen, dass die Maximierung der negativen freien Energie nicht nur ein ungefähres posteriores . Da die Kullback-Leibler-Divergenz nicht negativ ist, liefert auch eine Untergrenze für den (logarithmischen) Modellnachweis selbst .q(θ)p(θdata,Mi)F

Wir können nun zur ursprünglichen Frage zurückkehren, wie ein Bayes-Faktor die Anpassungsgüte und die Komplexität der beteiligten Modelle automatisch in Einklang bringt. Es stellt sich heraus, dass die negative freie Energie wie folgt umgeschrieben werden kann:

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

Der erste Term ist die logarithmische Wahrscheinlichkeit der Daten, die unter dem ungefähren posterioren Wert erwartet werden. Es repräsentiert die Anpassungsgüte (oder Genauigkeit ) des Modells. Der zweite Term ist die KL-Divergenz zwischen dem ungefähren hinteren und dem vorherigen; Es stellt die Komplexität des Modells dar, unter der Annahme, dass ein einfacheres Modell unseren früheren Überzeugungen besser entspricht, oder unter der Annahme, dass ein einfacheres Modell nicht so stark gedehnt werden muss, um die Daten aufzunehmen.

Die Näherung der freien Energie an die logarithmischen Modellnachweise zeigt, dass die Modellnachweise einen Kompromiss zwischen der Modellierung der Daten (dh der Anpassungsgüte) und der Einhaltung unserer früheren Werte (dh Einfachheit oder negative Komplexität) beinhalten.

Ein Bayes-Faktor (im Gegensatz zu einem Likelihood-Verhältnis) besagt somit, welches von zwei konkurrierenden Modellen eine einfache und dennoch genaue Erklärung der Daten liefern kann.

Kay Brodersen
quelle