Es wird oft argumentiert, dass das Bayes'sche Gerüst einen großen Vorteil bei der Interpretation hat (gegenüber dem Frequentisten), weil es die Wahrscheinlichkeit eines Parameters berechnet, wenn die Daten gegeben sind - anstelle von wie in frequentistischer Rahmen. So weit, ist es gut.p ( x | θ )
Aber die ganze Gleichung, auf der es basiert:
sieht für mich aus 2 Gründen etwas verdächtig aus:
In vielen Veröffentlichungen werden normalerweise uninformative Prioritäten (Gleichverteilungen) verwendet und dann nur , sodass Bayesianer dasselbe Ergebnis erzielen wie Frequentisten - wie ist dann das Bayesianische Gerüst besser? Interpretation, wenn bayesianische posterior und frequentists Wahrscheinlichkeit die gleichen Verteilungen sind? Es ergibt sich nur das gleiche Ergebnis.
Wenn Sie informative Prioritäten verwenden, erhalten Sie unterschiedliche Ergebnisse, aber der Bayesian wird vom subjektiven Prior beeinflusst, sodass auch das gesamte den subjektiven Farbton hat.
Mit anderen Worten, das ganze Argument, dass in der Interpretation besser ist als baut auf der Annahme auf, dass eine Art "real" ist, was normalerweise nicht der Fall ist Dies ist nur ein Ausgangspunkt, von dem wir annehmen, dass der MCMC ausgeführt wird. Es handelt sich jedoch nicht um eine Beschreibung der Realität (kann meiner Meinung nach nicht definiert werden).p ( x | θ ) p ( θ )
Wie können wir also argumentieren, dass Bayesian besser interpretiert werden kann?
quelle
uninformative or *objective* priors
? Diesubjective
Priors sind genau informative Priors.Antworten:
Um eine engere Antwort zu geben als die bereits veröffentlichten, und sich auf den Vorteil der Interpretation zu konzentrieren - die Bayes'sche Interpretation eines z Intervall entspricht 95%. Eine der beiden gängigen häufigen Interpretationen eines "95% -Konfidenzintervalls", auch wenn beide numerisch identisch sind, ist auf lange Sicht die Häufigkeit, mit der das Verfahren viele Male durchgeführt wird Intervall würde decken den realen Wert würde zu 95% konvergieren. Ersteres ist intuitiv, Letzteres nicht. Erklären Sie einem Manager einmal, dass Sie nicht sagen können: "Die Wahrscheinlichkeit, dass sich unsere Solarmodule in 25 Jahren um weniger als 20% verschlechtern, liegt bei 95%."
Eine alternative häufige Interpretation wäre: "Bevor die Daten generiert wurden, bestand eine Wahrscheinlichkeit von 5%, dass das Intervall, das ich mit dem von mir festgelegten Verfahren berechnen würde, vollständig unter den wahren Parameterwert fällt. Jetzt jedoch, da wir die Daten gesammelt haben, wir können keine solche Aussage treffen, weil wir keine Subjektivisten sind und die Wahrscheinlichkeit entweder 0 oder 1 ist, abhängig davon, ob sie vollständig unter dem wahren Parameterwert liegt oder nicht. " Das hilft beim Wirtschaftsprüfer und bei der Berechnung der Garantiereserve. (Ich halte diese Definition eigentlich für vernünftig, wenn auch normalerweise nicht nützlich. Sie ist auch nicht leicht intuitiv zu verstehen, und insbesondere nicht, wenn Sie kein Statistiker sind.)
Keine der häufigeren Interpretationen ist intuitiv. Die Bayes'sche Version ist. Daher der "große Interpretationsvorteil" des Bayes'schen Ansatzes.
quelle
Beachten Sie, dass informative Prioritäten nicht unbedingt subjektiv sind. Ich würde es beispielsweise nicht als subjektives Wissen betrachten, zu behaupten, dass Vorkenntnisse eines physikalischen Systems unabhängig von den Maßeinheiten sein sollten (da sie im Wesentlichen willkürlich sind), was zur Idee von Transformationsgruppen führt und "minimal informative" Prioritäten.
Die Kehrseite des Ignorierens von subjektivem Wissen ist, dass Ihr System möglicherweise nicht optimal ist, da Sie Expertenwissen ignorieren. Subjektivität ist also nicht unbedingt eine schlechte Sache. Wenn Sie beispielsweise das übliche Problem "Ableiten der Verzerrung einer Münze" verwenden, das häufig als motivierendes Beispiel verwendet wird, lernen Sie relativ langsam mit einem einheitlichen Vorgänger, wenn die Daten eingehen. Sind jedoch alle Beträge der Verzerrung mit gleicher Wahrscheinlichkeit eine vernünftige Annahme? Nein, es ist einfach, eine leicht voreingenommene Münze oder eine vollständig voreingenommene Münze (zwei Köpfe oder zwei Tals) zu erstellen. Wenn wir diese Annahme über einen subjektiven Prior in unsere Analyse einbauen, werden wir weniger Daten benötigen, um zu identifizieren, um was das ist Voreingenommenheit ist eigentlich.
Frequentistische Analysen enthalten häufig auch subjektive Elemente (z. B. die Entscheidung, die Nullhypothese abzulehnen, wenn der p-Wert kleiner als 0,05 ist, besteht kein logischer Zwang, dies ist lediglich eine Tradition, die sich als nützlich erwiesen hat). Der Vorteil des Bayes'schen Ansatzes besteht darin, dass die Subjektivität in der Berechnung explizit gemacht wird, anstatt sie implizit zu lassen.
Letztendlich handelt es sich um "Pferde für Kurse". Sie sollten beide Werkzeugsätze in Ihrer Werkzeugkiste haben und darauf vorbereitet sein, das beste Werkzeug für die jeweilige Aufgabe zu verwenden.
quelle
Das Bayes'sche Gerüst hat einen großen Vorteil gegenüber Frequentisten, da es nicht darauf ankommt, eine "Kristallkugel" zu haben, um die richtigen Verteilungsannahmen zu kennen. Bayesianische Methoden hängen davon ab, welche Informationen Sie haben und wie diese Informationen in eine Wahrscheinlichkeitsverteilung codiert werden.
Mit Bayes'schen Methoden wird im Grunde genommen die Wahrscheinlichkeitstheorie in vollem Umfang angewendet. Der Bayes-Satz ist nichts anderes als eine Wiederholung der klassischen Produktregel der Wahrscheinlichkeitstheorie:
Wenn Sie nun den Bayes-Satz für verdächtig halten, müssen Sie logischerweise auch denken, dass die Produktregel ebenfalls verdächtig ist. Sie können ein deduktives Argument finden hier , was die Produkt- und Summenregeln, ähnlich wie Cox-Theorem abgeleitet wird . Eine ausführlichere Liste der erforderlichen Annahmen finden Sie hier .
Soweit ich weiß, basiert die frequentistische Folgerung nicht auf einer Reihe von Grundlagen innerhalb eines logischen Rahmens. Da es die Kolmogorov-Axiome der Wahrscheinlichkeit verwendet, scheint es keinen Zusammenhang zwischen Wahrscheinlichkeitstheorie und statistischer Inferenz zu geben. Es gibt keine Axiome für eine frequentistische Folgerung, die zu einem Verfahren führen, das befolgt werden muss. Es gibt Prinzipien und Methoden (maximale Wahrscheinlichkeit, Konfidenzintervalle, p-Werte usw.), die gut funktionieren, jedoch eher isoliert und auf bestimmte Probleme spezialisiert sind. Ich denke, dass frequentistische Methoden in ihren Grundlagen am besten vage bleiben, zumindest in Bezug auf einen strengen logischen Rahmen.
Die Verwendung eines einheitlichen Prior ist häufig eine geeignete Annäherung, wenn die Wahrscheinlichkeit im Vergleich zum Prior scharf ist. Manchmal ist es die Mühe nicht wert, einen Prior durchzugehen und richtig einzurichten. Machen Sie auch nicht den Fehler, Bayes-Statistiken mit MCMC zu verwechseln. MCMC ist nur ein Integrationsalgorithmus, genau wie Guassian Quadratre, und in einer ähnlichen Klasse wie die Laplace-Näherung. Es ist ein bisschen nützlicher als quadratre, weil Sie die Ausgabe des Algorithmus wiederverwenden können, um alle Ihre Integrale zu erstellen (hintere Mittelwerte und Varianzen sind Integrale), und ein bisschen allgemeiner als Laplace, weil Sie keine große Stichprobe benötigen, oder a gut gerundete Spitze im posterior (Laplace ist zwar schneller).
quelle
Dies ist jedoch (meiner Meinung nach) nicht der wichtigste Aspekt der Bayes'schen Methodik. Bayesianische Methoden sind insofern generativ, als sie eine vollständige "Geschichte" darüber liefern, wie die Daten entstanden sind. Sie sind also nicht nur Mustersucher, sondern können die Realität der jeweiligen Situation voll berücksichtigen. Betrachten Sie zum Beispiel LDA (Latent Dirichlet Allocation), das eine vollständige generative Geschichte darüber liefert, wie ein Textdokument entsteht, die ungefähr so aussieht:
Somit basiert das Modell auf einem sehr spezifischen Verständnis der Objekte in der Domäne (hier Textdokumente) und wie sie erstellt wurden. Daher sind die Informationen, die wir zurückerhalten, direkt auf unsere Problemdomäne zugeschnitten (Wahrscheinlichkeit, dass Wörter zu bestimmten Themen verwendet werden, Wahrscheinlichkeit, dass Themen zusammen erwähnt werden, Wahrscheinlichkeit, dass Dokumente Themen enthalten und in welchem Umfang usw.). Die Tatsache, dass Bayes Theorem dazu verpflichtet ist, ist fast zweitrangig, daher der kleine Witz: "Bayes wäre kein Bayesianer und Christus wäre kein Christ."
Kurz gesagt, bei Bayes'schen Modellen geht es darum, die Domänenobjekte unter Verwendung von Wahrscheinlichkeitsverteilungen rigoros zu modellieren. Daher sind wir in der Lage, Wissen zu kodieren, das sonst mit einer einfachen Unterscheidungstechnik nicht verfügbar wäre.
quelle