Bayesian vs frequentist Interpretationen der Wahrscheinlichkeit

37

Kann jemand einen guten Überblick über die Unterschiede zwischen der bayesianischen und der frequentistischen Herangehensweise an die Wahrscheinlichkeit geben?

Von dem, was ich verstehe:

Nach Ansicht der Frequentisten handelt es sich bei den Daten um eine wiederholbare Zufallsstichprobe (Zufallsvariable) mit einer bestimmten Häufigkeit / Wahrscheinlichkeit (die als relative Häufigkeit eines Ereignisses definiert wird, wenn sich die Anzahl der Versuche der Unendlichkeit nähert). Die zugrunde liegenden Parameter und Wahrscheinlichkeiten bleiben während dieses wiederholbaren Prozesses konstant und die Variation beruht auf der Variabilität in Xn und nicht auf der Wahrscheinlichkeitsverteilung (die für ein bestimmtes Ereignis / einen bestimmten Prozess festgelegt ist).

Die Bayes'sche Sicht ist, dass die Daten festgelegt sind, während sich die Häufigkeit / Wahrscheinlichkeit für ein bestimmtes Ereignis ändern kann, was bedeutet, dass sich die Parameter der Verteilung ändern. Tatsächlich ändern die von Ihnen abgerufenen Daten die vorherige Verteilung eines Parameters, der für jeden Datensatz aktualisiert wird.

Für mich scheint der Ansatz des Frequentismus praktischer / logischer zu sein, da es vernünftig erscheint, dass Ereignisse eine bestimmte Wahrscheinlichkeit haben und die Abweichung in unserer Stichprobe liegt.

Darüber hinaus werden die meisten Datenanalysen aus Studien in der Regel nach dem Prinzip der Häufigkeitsanalyse (z. B. Konfidenzintervalle, Hypothesentests mit p-Werten usw.) durchgeführt, da dies leicht verständlich ist.

Ich habe mich nur gefragt, ob mir jemand eine kurze Zusammenfassung ihrer Interpretation des bayesianischen vs. frequentistischen Ansatzes geben kann, einschließlich der bayesianischen statistischen Äquivalente des frequentistischen p-Wertes und des Konfidenzintervalls. Darüber hinaus werden spezielle Beispiele dafür gewürdigt, wo ein Verfahren dem anderen vorzuziehen wäre.

BYS2
quelle
1
1/2
@ DilipSarwate ay, ich werde das für das nächste Mal im Hinterkopf behalten. aber diesmal habe ich anscheinend ein paar gute Antworten, also werde ich vielleicht versuchen, hier fertig zu werden: D
BYS2 06.07.12

Antworten:

27

Beim frequentistischen Ansatz wird behauptet, dass Wahrscheinlichkeiten nur als Grenzwert für die Anzahl der Erfolge in einer Folge von Versuchen, dh als Bedeutung haben

p=limnkn

Dabei ist die Anzahl der Erfolge und die Anzahl der Versuche. Insbesondere ist es nicht sinnvoll, eine Wahrscheinlichkeitsverteilung mit einem Parameter zu verknüpfen .kn

Betrachten Sie beispielsweise die Stichproben aus der Bernoulli-Verteilung mit dem Parameter (dh sie haben den Wert 1 mit der Wahrscheinlichkeit und 0 mit der Wahrscheinlichkeit ). Wir können die definieren Probe Erfolgsquote zu seinX1,,Xnpp1p

p^=X1++Xnn

und über die Verteilung von abhängig vom Wert von sprechen, aber es macht keinen Sinn, die Frage umzukehren und über die Wahrscheinlichkeitsverteilung von abhängig vom beobachteten Wert von sprechen . Dies bedeutet insbesondere, dass wir bei der Berechnung eines Konfidenzintervalls die Enden des Konfidenzintervalls als Zufallsvariablen interpretieren und von der "Wahrscheinlichkeit, dass das Intervall den wahren Parameter enthält" und nicht von der "Wahrscheinlichkeit, dass der Parameter ist" sprechen innerhalb des Konfidenzintervalls ".p^ppp^

Im Bayes'schen Ansatz interpretieren wir Wahrscheinlichkeitsverteilungen als Quantifizierung unserer Unsicherheit über die Welt. Dies bedeutet insbesondere, dass wir nun bedeutungsvoll über Wahrscheinlichkeitsverteilungen von Parametern sprechen können, da unser Wissen über ihren wahren Wert begrenzt sein kann, obwohl der Parameter festgelegt ist. Im obigen Beispiel können wir die Wahrscheinlichkeitsverteilung mit dem Bayes'schen Gesetz invertieren , um zu gebenf(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

Der Haken ist, dass wir die vorherige Verteilung in unsere Analyse einführen müssen - dies spiegelt unsere Überzeugung über den Wert von wider, bevor wir die tatsächlichen Werte von . Die Rolle des Prioren wird häufig im frequentistischen Ansatz kritisiert, da argumentiert wird, dass sie Subjektivität in die ansonsten strenge und gegenständliche Welt der Wahrscheinlichkeit einführt.pXi

Beim Bayes'schen Ansatz spricht man nicht mehr von Konfidenzintervallen, sondern von glaubwürdigen Intervallen, die natürlicher interpretiert werden. Bei einem zu 95% glaubwürdigen Intervall können wir eine Wahrscheinlichkeit von 95% zuweisen, dass der Parameter innerhalb des Intervalls liegt.

Chris Taylor
quelle
6
Auf der anderen Seite wird kritisiert, dass die Wahrscheinlichkeiten nicht mit denen der Menschen übereinstimmen. Überlegen Sie, wie die Leute über die "Wahrscheinlichkeit" von einmaligen Ereignissen wie dem Aussterben der Dinosaurier oder die "Wahrscheinlichkeit" von "Gewissheiten" wie dem morgigen Sonnenaufgang sprechen ...
14
Es kann auch erwähnenswert sein, dass die Kluft zwischen dem frequentistischen und dem bayesianischen Ansatz in der Praxis bei weitem nicht so groß ist: Jede frequentistische Methode, die nützliche und selbstkonsistente Ergebnisse liefert, kann im Allgemeinen bayesianisch interpretiert werden und umgekehrt . Insbesondere die Neufassung einer frequentistischen Berechnung in Bayes'schen Begriffen ergibt typischerweise eine Regel zur Berechnung des Seitenzahns, wenn ein bestimmter Prior gegeben ist . Man kann dann fragen: "Na, ist das vorher eigentlich vernünftig anzunehmen?"
Ilmari Karonen
Vielen Dank für diese Antwort, sie entspricht meinem allgemeinen Verständnis. Ich habe mich jedoch gefragt, ob Sie eine Sache klären könnten, wie Sie die Wahrscheinlichkeit der Daten- / Stichprobenerfolgsrate (f (p-hat)) in der Baye-Gesetzesformel finden würden. Ich habe einige Beispiele durchgelesen und verstehe im Allgemeinen, wie man f (p-hat | p) und das vorherige f (p) ableitet, aber f (p-hat) entzieht sich mir bisher. Wenn Sie Links zu Ressourcen hätten, wäre das großartig: D. Vielen Dank!
BYS2
@IlmariKaronen. Ok, sagen Sie also, wenn ich eine Studie hätte, die bestimmte Ergebnisse in Form von Konfidenzintervallen liefert, könnte ich die Daten neu zusammenstellen und stattdessen eine Bayes'sche Analyse durchführen? und die ergebnisse wären mehr oder weniger konsistent?
BYS2
Was @Karonen sagt, ist nicht ganz korrekt. Die beiden am häufigsten verwendeten Techniken für den Frequenzbereich sind Punktschätzungen (in der Regel Maximum-Likelihood-Schätzungen) und Hypothesentests, und beide können nicht wirklich nach Bayes interpretiert werden.
Jules
20

Sie haben Recht mit Ihrer Interpretation der Häufigkeitswahrscheinlichkeit: Die Zufälligkeit in dieser Konfiguration beruht lediglich auf unvollständigen Stichproben. Aus Bayes-Sicht sind Wahrscheinlichkeiten "subjektiv", da sie die Unsicherheit eines Agenten über die Welt widerspiegeln. Es ist nicht ganz richtig zu sagen, dass sich die Parameter der Distributionen "ändern". Da wir keine vollständigen Informationen zu den Parametern haben, ändert sich unsere Unsicherheit in Bezug auf diese, wenn wir weitere Informationen sammeln.

Beide Interpretationen sind in Anwendungen nützlich, und was nützlicher ist, hängt von der Situation ab. Informationen zu Bayes-Anwendungen finden Sie in Andrew Gelmans Blog. In vielen Situationen, die Bayesianer als "Prioren" bezeichnen, nennen Frequentisten "Regularisierung", und so kann (aus meiner Sicht) die Aufregung den Raum ziemlich schnell verlassen. Tatsächlich sind nach dem Bernstein-von-Mises-Theorem Bayes'sche und Frequentistische Inferenz unter eher schwachen Annahmen tatsächlich asymptotisch äquivalent (obwohl insbesondere der Satz für unendlich dimensionale Verteilungen versagt). Eine Reihe von Referenzen dazu finden Sie hier .

Da Sie um Interpretationen gebeten haben: Ich denke, der Standpunkt des Frequentisten ist sehr sinnvoll, wenn wissenschaftliche Experimente so modelliert werden, wie sie entworfen wurden. Für einige Anwendungen im maschinellen Lernen oder zur Modellierung des induktiven Denkens (oder Lernens) ist die Bayes'sche Wahrscheinlichkeit für mich sinnvoller. Es gibt viele Situationen, in denen die Modellierung eines Ereignisses mit einer festen, "wahren" Wahrscheinlichkeit unplausibel erscheint.

Betrachten Sie für ein Spielzeugbeispiel , das auf Laplace zurückgeht , die Wahrscheinlichkeit, dass die Sonne morgen aufgeht. Aus der Perspektive des Frequentismus müssen wir so etwas wie unendlich viele Universen setzen, um die Wahrscheinlichkeit zu definieren. Als Bayesianer gibt es nur ein Universum (oder zumindest nicht viele). Unsere Unsicherheit über den Sonnenaufgang wird durch unsere sehr, sehr starke vorherige Überzeugung, dass er morgen wieder aufgehen wird, unterdrückt.

ja
quelle
17

Die Bayes'sche Interpretation der Wahrscheinlichkeit ist eine Interpretation des Glaubensgrades.

Ein Bayesianer könnte sagen, dass die Wahrscheinlichkeit, dass es vor einer Milliarde Jahren Leben auf dem Mars gab, beträgt .1/2

Ein Frequentist wird es ablehnen, diesem Satz eine Wahrscheinlichkeit zuzuweisen. Es ist nicht etwas, von dem man sagen könnte, dass es in der Hälfte aller Fälle wahr ist, daher kann man Wahrscheinlichkeit nicht zuordnen .1/2

Michael Hardy
quelle
2
Es gibt wahrscheinlich keinen besseren Ort, um über die Grenzen des engeren Ansatzes von Frequentisten im Vergleich zur Allgemeinheit des Bayes'schen Ansatzes (Erweiterung der Logik) nachzudenken als den klassischen Artikel von RT Cox.
gwr
2
Cox schrieb auch ein Buch mit dem Titel Algebra of Probable Inference , das von Johns Hopkins veröffentlicht wurde. @ gwr
Michael Hardy
1
Ian Hacking hat es in seinem Buch "Eine Einführung in die Wahrscheinlichkeitsrechnung und die induktive Logik" gut ausgedrückt. Er sagte: "Der Bayesianer ist in der Lage, persönliche Wahrscheinlichkeiten oder Grade des Glaubens an individuelle Aussagen zu knüpfen. Der harte Frequenzdogmatiker glaubt, dass Wahrscheinlichkeiten nur an eine Reihe von Ereignissen geknüpft werden können."
Buttons840
9

Chris gibt eine nette, vereinfachende Erklärung, die die beiden Herangehensweisen an die Wahrscheinlichkeit richtig unterscheidet. Die frequentistische Wahrscheinlichkeitstheorie ist jedoch mehr als nur ein Blick auf den langfristigen Anteil der Erfolge. Wir betrachten auch zufällig ausgewählte Daten aus einer Verteilung und schätzen die Verteilungsparameter wie den Mittelwert und die Varianz, indem wir bestimmte Arten von Durchschnittswerten der Daten verwenden (z. B. ist der Mittelwert der Beobachtungen der arithmetische Durchschnitt. Die frequentistische Theorie assoziiert eine Wahrscheinlichkeit mit der Schätzung, die die Stichprobenverteilung genannt wird.

In der Frequenztheorie können wir für Parameter wie den Mittelwert, der durch Mitteln aus den Stichproben gebildet wird, zeigen, dass die Schätzung gegen den wahren Parameter konvergiert. Die Stichprobenverteilung wird verwendet, um zu beschreiben, wie nahe die Schätzung am Parameter für eine feste Stichprobengröße n liegt. Der Abschluss wird durch ein Maß für die Genauigkeit definiert (z. B. mittlerer quadratischer Fehler).

Bei Chris wird auf jeden Parameter wie den Mittelwert hingewiesen, den der Bayesianer mit einer vorherigen Wahrscheinlichkeitsverteilung verknüpft. Dann wird unter Berücksichtigung der Daten-Bayes-Regel eine posteriore Verteilung für den Parameter berechnet. Für den Bayesian basiert jede Schlussfolgerung über den Parameter auf dieser posterioren Verteilung.

Frequentisten konstruieren Konfidenzintervalle, die Intervalle plausibler Werte für den Parameter sind. Ihre Konstruktion basiert auf der Wahrscheinlichkeit, dass der Anteil der Intervalle, der den wahren Wert des Parameters enthält, mindestens ein bestimmtes Konfidenzniveau (z. B. 95%) beträgt, wenn der zur Generierung des Intervalls verwendete Prozess für unabhängige Stichproben viele Male wiederholt würde. ).

Bayesianer verwenden die a posteriori-Verteilung für den Parameter, um glaubwürdige Regionen zu konstruieren. Dies sind einfach Bereiche im Parameterraum, über die die posteriore Verteilung integriert wird, um eine vorgegebene Wahrscheinlichkeit (z. B. 0,95) zu erhalten. Glaubwürdige Regionen werden von Bayesianern als Regionen interpretiert, in denen die Wahrscheinlichkeit, den wahren Wert des Parameters aufzunehmen, hoch ist (z. B. die vorgegebene Wahrscheinlichkeit von 0,95).

Michael Chernick
quelle
1
Glaubwürdige Regionen werden von Bayesianern als Regionen interpretiert, in denen die Wahrscheinlichkeit, den wahren Wert des Parameters einzubeziehen, hoch ist (z. B. die vorgegebene Wahrscheinlichkeit von 0,95) . Wie ist das möglich, wenn der Parameter eine Zufallsvariable ist?
@Procrastinator Okay, vielleicht wäre es mir lieber, wenn ich nur sage, dass es einen hohen vorgegebenen Anteil der Parameterverteilung abdeckt. Wenn jedoch X eine Zufallsvariable mit einer Verteilung f ist und wir eine glaubwürdige Region dafür konstruieren, dann repräsentiert die Region die Wahrscheinlichkeit, dass eine Realisierung der Zufallsvariablen in der Region liegen wird.
Michael Chernick
Ich stimme dieser Erklärung zu. Es ist wichtig zu verdeutlichen, dass eine Realisierung der Zufallsvariablen nicht der wahre Wert des Parameters ist.
@Procrastinator, das ist ein interessanter Punkt, den Sie ansprechen. Mein Verständnis der Bayes'schen Wahrscheinlichkeit ist jedoch, dass viele Bayes'sche mit klassischen Statistikern übereinstimmen, dass es einen einzigen WAHREN Wert des fraglichen Parameters gibt (dieser ist fest, aber unbekannt). Es ist die Unsicherheit über diesen Parameter, die aufgrund unseres unvollständigen Wissensstandes verteilt ist. Wenn Sie also auf diese Weise darüber nachdenken, dann ist die ursprüngliche Aussage von Michael Chernick gültig, nicht wahr?
BYS2
2
@MichaelChernick Ich denke, es gibt eine Fehlinterpretation dessen, was eine Bayes'sche Glaubwürdigkeitsregion bedeutet. Angenommen, der wahre Wert des Parameters ist und Sie wählen eine Uniform vor . Daher würde kein Glaubwürdigkeitsintervall den wahren Wert des Parameters enthalten, was Ihrer Argumentation widerspricht. ( 1 , 100 )θ0=1(1,100)
2

Aus Sicht der "realen Welt" finde ich einen wesentlichen Unterschied zwischen einer frequentistischen und einer klassischen oder bayesianischen "Lösung", die für mindestens drei wichtige Szenarien gilt. Der Unterschied bei der Auswahl einer Methode hängt davon ab, ob Sie eine Lösung benötigen, die von der Bevölkerungswahrscheinlichkeit oder von der individuellen Wahrscheinlichkeit beeinflusst wird. Beispiele unten:

  1. Wenn eine Wahrscheinlichkeit von 5% bekannt ist, dass Männer über 40 in einem bestimmten Jahr sterben und Lebensversicherungszahlungen verlangen, kann eine Versicherungsgesellschaft den Prozentsatz von 5% BEVÖLKERUNG verwenden, um ihre Kosten zu schätzen, aber zu sagen, dass jeder einzelne Mann über 40 nur diese hat eine 5% ige Sterbewahrscheinlichkeit ... ist bedeutungslos ... Weil 5% eine 100% ige Sterbewahrscheinlichkeit haben - was ein häufiger Ansatz ist. Auf individueller Ebene tritt das Ereignis entweder ein (100% Wahrscheinlichkeit) oder nicht (0% Wahrscheinlichkeit). Aufgrund dieser begrenzten Informationen ist es jedoch nicht möglich, die Personen vorherzusagen, deren Sterbewahrscheinlichkeit 100% beträgt, und die 5 % "gemittelte" Bevölkerungswahrscheinlichkeit ist auf individueller Ebene nutzlos.

  2. Das obige Argument gilt ebenso für Brände in Gebäuden, weshalb Sprinkler in allen Gebäuden einer Bevölkerung erforderlich sind.

  3. Beide oben genannten Argumente gelten gleichermaßen auch für Hinterteile, Beschädigungen oder "Hacks" von Informationssystemen. Die Bevölkerungsanteile sind unbrauchbar, daher müssen alle Systeme geschützt werden.

James J Finn
quelle
2
Ich erkenne in keinem dieser drei Fälle einen frequentistischen Ansatz. Sie alle scheinen von einem retrospektiven - und damit nutzlosen - Wahrscheinlichkeitskonzept abhängig zu sein, das in klassischen Modellen nicht verwendet wird. Zum Beispiel ist die Behauptung, dass "das Ereignis entweder eintritt ... oder nicht", trivial wahr, aber unabhängig von Wahrscheinlichkeiten.
Whuber
0

Die Wahl der Interpretation hängt von der Frage ab. Wenn Sie die Chancen in einem Glücksspiel kennen möchten, löst die klassische Interpretation Ihr Problem, aber statistische Daten sind unbrauchbar, da faire Würfel kein Gedächtnis haben.

Wenn Sie ein zukünftiges Ereignis auf der Grundlage vergangener Erfahrungen vorhersagen möchten, ist die frequentistische Interpretation korrekt und ausreichend.

Wenn Sie nicht wissen, ob ein Ereignis in der Vergangenheit stattgefunden hat, und die Wahrscheinlichkeit einschätzen möchten, dass dies der Fall ist, müssen Sie Ihre vorherigen Überzeugungen berücksichtigen, dh, was Sie bereits über die Eintrittswahrscheinlichkeit des Ereignisses wissen, und Ihre Überzeugungen aktualisieren, wenn Sie sie erwerben neue Daten.

Da es sich bei der Frage um ein gewisses Maß an Glauben handelt und jeder Mensch möglicherweise eine andere Vorstellung von den Prioren hat, ist die Interpretation notwendigerweise subjektiv, auch bekannt als Bayesian.

Aviel Roy-Shapira
quelle