Kann jemand einen guten Überblick über die Unterschiede zwischen der bayesianischen und der frequentistischen Herangehensweise an die Wahrscheinlichkeit geben?
Von dem, was ich verstehe:
Nach Ansicht der Frequentisten handelt es sich bei den Daten um eine wiederholbare Zufallsstichprobe (Zufallsvariable) mit einer bestimmten Häufigkeit / Wahrscheinlichkeit (die als relative Häufigkeit eines Ereignisses definiert wird, wenn sich die Anzahl der Versuche der Unendlichkeit nähert). Die zugrunde liegenden Parameter und Wahrscheinlichkeiten bleiben während dieses wiederholbaren Prozesses konstant und die Variation beruht auf der Variabilität in und nicht auf der Wahrscheinlichkeitsverteilung (die für ein bestimmtes Ereignis / einen bestimmten Prozess festgelegt ist).
Die Bayes'sche Sicht ist, dass die Daten festgelegt sind, während sich die Häufigkeit / Wahrscheinlichkeit für ein bestimmtes Ereignis ändern kann, was bedeutet, dass sich die Parameter der Verteilung ändern. Tatsächlich ändern die von Ihnen abgerufenen Daten die vorherige Verteilung eines Parameters, der für jeden Datensatz aktualisiert wird.
Für mich scheint der Ansatz des Frequentismus praktischer / logischer zu sein, da es vernünftig erscheint, dass Ereignisse eine bestimmte Wahrscheinlichkeit haben und die Abweichung in unserer Stichprobe liegt.
Darüber hinaus werden die meisten Datenanalysen aus Studien in der Regel nach dem Prinzip der Häufigkeitsanalyse (z. B. Konfidenzintervalle, Hypothesentests mit p-Werten usw.) durchgeführt, da dies leicht verständlich ist.
Ich habe mich nur gefragt, ob mir jemand eine kurze Zusammenfassung ihrer Interpretation des bayesianischen vs. frequentistischen Ansatzes geben kann, einschließlich der bayesianischen statistischen Äquivalente des frequentistischen p-Wertes und des Konfidenzintervalls. Darüber hinaus werden spezielle Beispiele dafür gewürdigt, wo ein Verfahren dem anderen vorzuziehen wäre.
Antworten:
Beim frequentistischen Ansatz wird behauptet, dass Wahrscheinlichkeiten nur als Grenzwert für die Anzahl der Erfolge in einer Folge von Versuchen, dh als Bedeutung haben
Dabei ist die Anzahl der Erfolge und die Anzahl der Versuche. Insbesondere ist es nicht sinnvoll, eine Wahrscheinlichkeitsverteilung mit einem Parameter zu verknüpfen .k n
Betrachten Sie beispielsweise die Stichproben aus der Bernoulli-Verteilung mit dem Parameter (dh sie haben den Wert 1 mit der Wahrscheinlichkeit und 0 mit der Wahrscheinlichkeit ). Wir können die definieren Probe Erfolgsquote zu seinX1,…,Xn p p 1−p
und über die Verteilung von abhängig vom Wert von sprechen, aber es macht keinen Sinn, die Frage umzukehren und über die Wahrscheinlichkeitsverteilung von abhängig vom beobachteten Wert von sprechen . Dies bedeutet insbesondere, dass wir bei der Berechnung eines Konfidenzintervalls die Enden des Konfidenzintervalls als Zufallsvariablen interpretieren und von der "Wahrscheinlichkeit, dass das Intervall den wahren Parameter enthält" und nicht von der "Wahrscheinlichkeit, dass der Parameter ist" sprechen innerhalb des Konfidenzintervalls ".p^ p p p^
Im Bayes'schen Ansatz interpretieren wir Wahrscheinlichkeitsverteilungen als Quantifizierung unserer Unsicherheit über die Welt. Dies bedeutet insbesondere, dass wir nun bedeutungsvoll über Wahrscheinlichkeitsverteilungen von Parametern sprechen können, da unser Wissen über ihren wahren Wert begrenzt sein kann, obwohl der Parameter festgelegt ist. Im obigen Beispiel können wir die Wahrscheinlichkeitsverteilung mit dem Bayes'schen Gesetz invertieren , um zu gebenf(p^∣p)
Der Haken ist, dass wir die vorherige Verteilung in unsere Analyse einführen müssen - dies spiegelt unsere Überzeugung über den Wert von wider, bevor wir die tatsächlichen Werte von . Die Rolle des Prioren wird häufig im frequentistischen Ansatz kritisiert, da argumentiert wird, dass sie Subjektivität in die ansonsten strenge und gegenständliche Welt der Wahrscheinlichkeit einführt.p Xi
Beim Bayes'schen Ansatz spricht man nicht mehr von Konfidenzintervallen, sondern von glaubwürdigen Intervallen, die natürlicher interpretiert werden. Bei einem zu 95% glaubwürdigen Intervall können wir eine Wahrscheinlichkeit von 95% zuweisen, dass der Parameter innerhalb des Intervalls liegt.
quelle
Sie haben Recht mit Ihrer Interpretation der Häufigkeitswahrscheinlichkeit: Die Zufälligkeit in dieser Konfiguration beruht lediglich auf unvollständigen Stichproben. Aus Bayes-Sicht sind Wahrscheinlichkeiten "subjektiv", da sie die Unsicherheit eines Agenten über die Welt widerspiegeln. Es ist nicht ganz richtig zu sagen, dass sich die Parameter der Distributionen "ändern". Da wir keine vollständigen Informationen zu den Parametern haben, ändert sich unsere Unsicherheit in Bezug auf diese, wenn wir weitere Informationen sammeln.
Beide Interpretationen sind in Anwendungen nützlich, und was nützlicher ist, hängt von der Situation ab. Informationen zu Bayes-Anwendungen finden Sie in Andrew Gelmans Blog. In vielen Situationen, die Bayesianer als "Prioren" bezeichnen, nennen Frequentisten "Regularisierung", und so kann (aus meiner Sicht) die Aufregung den Raum ziemlich schnell verlassen. Tatsächlich sind nach dem Bernstein-von-Mises-Theorem Bayes'sche und Frequentistische Inferenz unter eher schwachen Annahmen tatsächlich asymptotisch äquivalent (obwohl insbesondere der Satz für unendlich dimensionale Verteilungen versagt). Eine Reihe von Referenzen dazu finden Sie hier .
Da Sie um Interpretationen gebeten haben: Ich denke, der Standpunkt des Frequentisten ist sehr sinnvoll, wenn wissenschaftliche Experimente so modelliert werden, wie sie entworfen wurden. Für einige Anwendungen im maschinellen Lernen oder zur Modellierung des induktiven Denkens (oder Lernens) ist die Bayes'sche Wahrscheinlichkeit für mich sinnvoller. Es gibt viele Situationen, in denen die Modellierung eines Ereignisses mit einer festen, "wahren" Wahrscheinlichkeit unplausibel erscheint.
Betrachten Sie für ein Spielzeugbeispiel , das auf Laplace zurückgeht , die Wahrscheinlichkeit, dass die Sonne morgen aufgeht. Aus der Perspektive des Frequentismus müssen wir so etwas wie unendlich viele Universen setzen, um die Wahrscheinlichkeit zu definieren. Als Bayesianer gibt es nur ein Universum (oder zumindest nicht viele). Unsere Unsicherheit über den Sonnenaufgang wird durch unsere sehr, sehr starke vorherige Überzeugung, dass er morgen wieder aufgehen wird, unterdrückt.
quelle
Die Bayes'sche Interpretation der Wahrscheinlichkeit ist eine Interpretation des Glaubensgrades.
Ein Bayesianer könnte sagen, dass die Wahrscheinlichkeit, dass es vor einer Milliarde Jahren Leben auf dem Mars gab, beträgt .1/2
Ein Frequentist wird es ablehnen, diesem Satz eine Wahrscheinlichkeit zuzuweisen. Es ist nicht etwas, von dem man sagen könnte, dass es in der Hälfte aller Fälle wahr ist, daher kann man Wahrscheinlichkeit nicht zuordnen .1/2
quelle
Chris gibt eine nette, vereinfachende Erklärung, die die beiden Herangehensweisen an die Wahrscheinlichkeit richtig unterscheidet. Die frequentistische Wahrscheinlichkeitstheorie ist jedoch mehr als nur ein Blick auf den langfristigen Anteil der Erfolge. Wir betrachten auch zufällig ausgewählte Daten aus einer Verteilung und schätzen die Verteilungsparameter wie den Mittelwert und die Varianz, indem wir bestimmte Arten von Durchschnittswerten der Daten verwenden (z. B. ist der Mittelwert der Beobachtungen der arithmetische Durchschnitt. Die frequentistische Theorie assoziiert eine Wahrscheinlichkeit mit der Schätzung, die die Stichprobenverteilung genannt wird.
In der Frequenztheorie können wir für Parameter wie den Mittelwert, der durch Mitteln aus den Stichproben gebildet wird, zeigen, dass die Schätzung gegen den wahren Parameter konvergiert. Die Stichprobenverteilung wird verwendet, um zu beschreiben, wie nahe die Schätzung am Parameter für eine feste Stichprobengröße n liegt. Der Abschluss wird durch ein Maß für die Genauigkeit definiert (z. B. mittlerer quadratischer Fehler).
Bei Chris wird auf jeden Parameter wie den Mittelwert hingewiesen, den der Bayesianer mit einer vorherigen Wahrscheinlichkeitsverteilung verknüpft. Dann wird unter Berücksichtigung der Daten-Bayes-Regel eine posteriore Verteilung für den Parameter berechnet. Für den Bayesian basiert jede Schlussfolgerung über den Parameter auf dieser posterioren Verteilung.
Frequentisten konstruieren Konfidenzintervalle, die Intervalle plausibler Werte für den Parameter sind. Ihre Konstruktion basiert auf der Wahrscheinlichkeit, dass der Anteil der Intervalle, der den wahren Wert des Parameters enthält, mindestens ein bestimmtes Konfidenzniveau (z. B. 95%) beträgt, wenn der zur Generierung des Intervalls verwendete Prozess für unabhängige Stichproben viele Male wiederholt würde. ).
Bayesianer verwenden die a posteriori-Verteilung für den Parameter, um glaubwürdige Regionen zu konstruieren. Dies sind einfach Bereiche im Parameterraum, über die die posteriore Verteilung integriert wird, um eine vorgegebene Wahrscheinlichkeit (z. B. 0,95) zu erhalten. Glaubwürdige Regionen werden von Bayesianern als Regionen interpretiert, in denen die Wahrscheinlichkeit, den wahren Wert des Parameters aufzunehmen, hoch ist (z. B. die vorgegebene Wahrscheinlichkeit von 0,95).
quelle
Aus Sicht der "realen Welt" finde ich einen wesentlichen Unterschied zwischen einer frequentistischen und einer klassischen oder bayesianischen "Lösung", die für mindestens drei wichtige Szenarien gilt. Der Unterschied bei der Auswahl einer Methode hängt davon ab, ob Sie eine Lösung benötigen, die von der Bevölkerungswahrscheinlichkeit oder von der individuellen Wahrscheinlichkeit beeinflusst wird. Beispiele unten:
Wenn eine Wahrscheinlichkeit von 5% bekannt ist, dass Männer über 40 in einem bestimmten Jahr sterben und Lebensversicherungszahlungen verlangen, kann eine Versicherungsgesellschaft den Prozentsatz von 5% BEVÖLKERUNG verwenden, um ihre Kosten zu schätzen, aber zu sagen, dass jeder einzelne Mann über 40 nur diese hat eine 5% ige Sterbewahrscheinlichkeit ... ist bedeutungslos ... Weil 5% eine 100% ige Sterbewahrscheinlichkeit haben - was ein häufiger Ansatz ist. Auf individueller Ebene tritt das Ereignis entweder ein (100% Wahrscheinlichkeit) oder nicht (0% Wahrscheinlichkeit). Aufgrund dieser begrenzten Informationen ist es jedoch nicht möglich, die Personen vorherzusagen, deren Sterbewahrscheinlichkeit 100% beträgt, und die 5 % "gemittelte" Bevölkerungswahrscheinlichkeit ist auf individueller Ebene nutzlos.
Das obige Argument gilt ebenso für Brände in Gebäuden, weshalb Sprinkler in allen Gebäuden einer Bevölkerung erforderlich sind.
Beide oben genannten Argumente gelten gleichermaßen auch für Hinterteile, Beschädigungen oder "Hacks" von Informationssystemen. Die Bevölkerungsanteile sind unbrauchbar, daher müssen alle Systeme geschützt werden.
quelle
Die Wahl der Interpretation hängt von der Frage ab. Wenn Sie die Chancen in einem Glücksspiel kennen möchten, löst die klassische Interpretation Ihr Problem, aber statistische Daten sind unbrauchbar, da faire Würfel kein Gedächtnis haben.
Wenn Sie ein zukünftiges Ereignis auf der Grundlage vergangener Erfahrungen vorhersagen möchten, ist die frequentistische Interpretation korrekt und ausreichend.
Wenn Sie nicht wissen, ob ein Ereignis in der Vergangenheit stattgefunden hat, und die Wahrscheinlichkeit einschätzen möchten, dass dies der Fall ist, müssen Sie Ihre vorherigen Überzeugungen berücksichtigen, dh, was Sie bereits über die Eintrittswahrscheinlichkeit des Ereignisses wissen, und Ihre Überzeugungen aktualisieren, wenn Sie sie erwerben neue Daten.
Da es sich bei der Frage um ein gewisses Maß an Glauben handelt und jeder Mensch möglicherweise eine andere Vorstellung von den Prioren hat, ist die Interpretation notwendigerweise subjektiv, auch bekannt als Bayesian.
quelle