Gibt es eine * mathematische * Grundlage für die Debatte zwischen Bayesian und Frequentist?

67

Auf Wikipedia heißt es:

Die Mathematik [der Wahrscheinlichkeit] ist weitgehend unabhängig von jeder Interpretation der Wahrscheinlichkeit.

Frage: Sollten wir dann, wenn wir mathematisch korrekt sein wollen, keine Interpretation der Wahrscheinlichkeit zulassen ? Sind also sowohl Bayesian als auch Frequentismus mathematisch inkorrekt?

Ich mag Philosophie nicht, aber ich mag Mathematik, und ich möchte ausschließlich im Rahmen von Kolmogorovs Axiomen arbeiten. Wenn dies mein Ziel ist, sollte sich aus dem, was auf Wikipedia steht, ergeben, dass ich sowohl Bayesianismus als auch Frequentismus ablehnen sollte ? Wenn die Begriffe rein philosophisch und überhaupt nicht mathematisch sind, warum erscheinen sie dann überhaupt in der Statistik?

Hintergrund / Kontext:
Dieser Blogbeitrag sagt nicht ganz dasselbe, argumentiert jedoch, dass der Versuch, Techniken als "Bayesian" oder "Frequentist" zu klassifizieren, aus pragmatischer Sicht kontraproduktiv ist.

Wenn das Zitat aus Wikipedia wahr ist, scheint es aus philosophischer Sicht auch kontraproduktiv zu sein, statistische Methoden zu klassifizieren. Wenn eine Methode mathematisch korrekt ist, ist es gültig, die Methode zu verwenden, wenn die Annahmen der zugrunde liegenden Mathematik zutreffen hold andernfalls ist die Verwendung ungültig, wenn sie mathematisch nicht korrekt ist oder wenn die Annahmen nicht gelten.

Andererseits scheinen viele Leute "Bayesian Inference" mit Wahrscheinlichkeitstheorie (dh Kolmogorovs Axiomen) zu identifizieren, obwohl ich nicht ganz sicher bin, warum. Einige Beispiele sind Jaynes 'Abhandlung über Bayesianische Folgerungen namens "Wahrscheinlichkeit" sowie James Stones Buch "Bayes' Regel". Wenn ich diese Behauptungen zum Nennwert nahm, würde ich den Bayesianismus vorziehen.

Casellas und Bergers Buch scheint jedoch häufig zu sein, da es Maximum-Likelihood-Schätzer behandelt, Maximum-A-posteriori-Schätzer ignoriert, aber es scheint auch, als ob alles darin mathematisch korrekt ist.

Wäre es dann nicht die einzige mathematisch korrekte Version der Statistik, die sich weigert, in Bezug auf Bayesianismus und Frequentismus alles andere als agnostisch zu sein? Wenn Methoden mit beiden Klassifikationen mathematisch korrekt sind, ist es dann nicht unangemessen, einige den anderen vorzuziehen, da dies vage, schlecht definierte Philosophien gegenüber präzisen, genau definierten Mathematiken priorisieren würde?

Zusammenfassung: Kurz gesagt, ich verstehe nicht, auf welcher mathematischen Grundlage die Debatte zwischen Bayes und Frequentismus stattfindet, und wenn es keine mathematische Grundlage für die Debatte gibt (wie Wikipedia behauptet), verstehe ich nicht, warum dies toleriert wird alles im akademischen Diskurs.

Chill2Macht
quelle
5
Vielleicht auch von Interesse: Akzeptieren die Bayesianer Kolmogorov-Axiome? .
Scortchi - Wiedereinsetzung von Monica
1
@PeterMortensen Ich habe diese Frage bereits gesehen, bevor ich sie gestellt habe. Die Antwort auf diese Frage bezog sich jedoch nicht auf meine Hauptverwechslungsquelle, nämlich welchen mathematischen Unterschied, falls überhaupt, zwischen den beiden. Denken Sie daran, dass ich mich nicht für philosophische Unterschiede interessiere, da sie keinen Einfluss auf den Raum möglicher Modelle haben sollten.
Chill2Macht
1
Kommentare sind nicht für längere Diskussionen gedacht. Diese Unterhaltung wurde in den Chat verschoben .
Whuber
4
In der Bayes'schen Debatte geht es weniger um die Wahrscheinlichkeit als vielmehr um die statistische Interpretation und die Gültigkeit ihrer Anwendung.
RBarryYoung
2
@Mehrdad Bei dieser Frage geht es nicht um unterschiedliche Ansätze, die unterschiedliche Antworten geben, sondern um die Möglichkeit, den Unterschied zwischen Bayesianismus und Frequentismus über mathematische Axiome zu formalisieren. Die Antworten auf die verknüpfte Frage erklären nicht die axiomatischen Unterschiede zwischen den beiden Ansätzen.
Chill2Macht

Antworten:

14

Wahrscheinlichkeitsräume und Kolmogorovsche Axiome

Ein Wahrscheinlichkeitsraum ist per Definition ein Trippel ( Ω , F , P ), wobei Ω eine Menge von Ergebnissen ist, F eine σ- Algebra auf den Teilmengen von Ω ist und P ein Wahrscheinlichkeitsmaß ist, das die Axiome von Kolmogorov erfüllt, d. H P ist eine Funktion von F bis [ 0 , 1 ], so dass P ( Ω ) = 1 und für disjunkte E 1 , E 2 , P(Ω,F,P)ΩFσΩPPF[0,1]P(Ω)=1E1,E2,in gilt, dass P ( j = 1 E j ) = & Sigma; j = 1 P ( E j ) .FP(j=1Ej)=j=1P(Ej)

Innerhalb eines solchen Wahrscheinlichkeitsraums kann man für zwei Ereignisse in F die bedingte Wahrscheinlichkeit definieren als P ( E 1 | E 2 ) d e f = P ( E 1E 2 )E1,E2FP(E1|E2)=defP(E1E2)P(E2)

Beachten Sie, dass:

  1. Diese bedingte Wahrscheinlichkeit ist nur dann definiert, wenn für F definiert ist. Daher benötigen wir einen Wahrscheinlichkeitsraum, um bedingte Wahrscheinlichkeiten definieren zu können.PF
  2. Ein Wahrscheinlichkeitsraum ist sehr allgemein definiert ( eine Menge , eine σ- Algebra F und ein Wahrscheinlichkeitsmaß P ). Die einzige Voraussetzung ist, dass bestimmte Eigenschaften erfüllt sein müssen, aber abgesehen davon können diese drei Elemente '' alles '' sein. .Ω σFP

Weitere Details finden Sie in diesem Link

Die Bayes-Regel gilt in jedem (gültigen) Wahrscheinlichkeitsraum

Aus der Definition der bedingten Wahrscheinlichkeit ergibt sich auch, dass . Und aus den beiden letztgenannten Gleichungen ergibt sich die Bayes'sche Regel. So BayesRegel (nach Definition der bedingten probabilty) hält in jedem Wahrscheinlichkeitsraum (es zu zeigen, leitenP(E1E2)undP(E2E1)aus jeder Gleichung und setzen sie (sie gleich sindweil Schnittpunkt ist kommutativ)). P(E2|E1)=P(E2E1)P(E1)P(E1E2)P(E2E1)

Da die Bayes-Regel die Grundlage für die Bayes'sche Inferenz ist, kann man die Bayes'sche Analyse in jedem gültigen Wahrscheinlichkeitsraum durchführen (dh alle Bedingungen erfüllen, ua Kolmogorovs Axiome).

Häufige Definition der Wahrscheinlichkeit ist ein Sonderfall

Das Obige gilt im Allgemeinen, dh wir haben kein spezifisches , F , P im Sinn, solange F eine σ- Algebra auf Teilmengen von Ω ist und P Kolmogorovs Axiome erfüllt.ΩFPFσΩP

Wir werden nun zeigen, dass eine '' frequentistische '' Definition von Kolomogorovs Axiome erfüllt. Wenn das der Fall ist, dann sind '' frequentistische '' Wahrscheinlichkeiten nur ein Sonderfall von Kolmogorovs allgemeiner und abstrakter Wahrscheinlichkeit. P

Nehmen wir ein Beispiel und würfeln. Dann ist die Menge aller möglichen Ergebnisse beträgt Ω = { 1 , 2 , 3 , 4 , 5 , 6 } . Wir brauchen auch eine σ- Algebra auf dieser Menge Ω und nehmen F die Menge aller Teilmengen von Ω , dh F = 2 Ω .ΩΩ={1,2,3,4,5,6}σΩFΩF=2Ω

PP({1})P({1})=deflimn+n1n 1 n P ( { 2 } ) P ( { 6 } )n11nP({2})P({6})

Auf diese Weise wird für alle Singletons in . Für jede andere Menge in , z. B. , definieren wir häufig, dh , aber aufgrund der Linearität des 'lim' ist dies gleich , was impliziert, dass Kolmogorovs Axiome gelten.F F { 1 , 2 } P ( { 1 , 2 } ) P ( { 1 , 2 } ) d e f = lim n + n 1 + n 2PFF{1,2}P({1,2})P({1,2})=deflimn+n1+n2nP({1})+P({2})

Die häufigste Definition von Wahrscheinlichkeit ist also nur ein Sonderfall von Kolomogorovs allgemeiner und abstrakter Definition eines Wahrscheinlichkeitsmaßes.

Beachten Sie, dass es andere Möglichkeiten gibt, ein Wahrscheinlichkeitsmaß zu definieren, das die Axiome von Kolmogorov erfüllt, sodass die Definition des Frequentisten nicht die einzig mögliche ist.

Fazit

Die Wahrscheinlichkeit in Kolmogorovs axiomatischem System ist "abstrakt", es hat keine wirkliche Bedeutung, es muss nur Bedingungen erfüllen, die "Axiome" genannt werden. Kolmogorov konnte nur mit diesen Axiomen einen sehr reichen Satz ableiten.

Die frequentistische Wahrscheinlichkeitsdefinition erfüllt die Axiome und ersetzt daher das abstrakte, "bedeutungslose" durch eine Wahrscheinlichkeit, die auf eine frequentistische Weise definiert wurde. Alle diese Theoreme sind gültig, da die "frequentistische Wahrscheinlichkeit" nur eine spezielle ist Fall von Kolmogorovs abstrakter Wahrscheinlichkeit (dh es erfüllt die Axiome).P

Eine der Eigenschaften, die in Kolmogorovs allgemeinem Rahmen abgeleitet werden kann, ist die Bayes-Regel. Wie es im allgemeinen und abstrakten Rahmen gilt, gilt (vgl. Oben) auch für den speziellen Fall, dass die Wahrscheinlichkeiten häufig definiert werden (weil die häufig verwendete Definition die Axiome erfüllt und diese Axiome das einzige waren, was dazu benötigt wird alle Sätze ableiten). Man kann also eine Bayes'sche Analyse mit einer frequentistischen Definition der Wahrscheinlichkeit durchführen.

Definieren in einer frequentistischen Weise ist nicht die einzige Möglichkeit, es gibt auch andere Möglichkeiten , um es so zu definieren, dass sie erfüllt die abstrakten Axiome von Kolmogorov. Die Bayes-Regel gilt auch in diesen "Sonderfällen". Man kann also auch eine Bayes'sche Analyse mit einer nicht- häufigen Definition der Wahrscheinlichkeit durchführen.P

EDIT 23.8.2016

@mpiktas Reaktion auf Ihren Kommentar:

Wie gesagt, die Mengen und das Wahrscheinlichkeitsmaß haben im axiomatischen System keine besondere Bedeutung, sie sind abstrakt. Ω,FP

Um diese Theorie anwenden zu können, müssen Sie weitere Definitionen angeben (was Sie also in Ihrem Kommentar sagen , "es ist nicht falsch, es mit einigen bizarren Definitionen zu verwechseln" , Sie benötigen zusätzliche Definitionen ).

Wenden wir es auf den Fall des Werfens einer fairen Münze an. Die Menge in Kolmogorovs Theorie hat keine besondere Bedeutung, sie muss nur eine Menge sein. Wir müssen also angeben, was dieses Set für die faire Münze ist, dh wir müssen das Set . Wenn wir als Kopf H und Schwanz als T darstellen, dann die Gruppe ist definitions .ΩΩΩ Ω=def{H,T}

Wir müssen auch die Ereignisse definieren , dh die -algebra . Wir definieren es als . Es ist leicht zu überprüfen, ob eine Algebra ist.σFF=def{,{H},{T},{H,T}}Fσ

Als nächstes müssen wir für jedes Ereignis in sein Maß definieren. So müssen wir definieren eine Karte aus in . Ich werde es auf die häufigste Weise definieren, für eine faire Münze, wenn ich es sehr oft , dann wird der Bruchteil der Köpfe 0,5 sein, also definiere ich . Ebenso definiere ich , und . Beachten Sie, dass eine Map aus in und die Axiome von Kolmogorov erfüllt.EFF[0,1]P({H})=def0.5P({T})=def0.5P({H,T})=def1P()=def0PF[0,1]

Eine Referenz mit der Definition der Wahrscheinlichkeit in den Frequentisten finden Sie unter diesem Link (am Ende des Abschnitts 'Definition') und unter diesem Link .

Gemeinschaft
quelle
10
Vielleicht sollte man irgendwo bemerken, dass es eine häufig / bayesianische Debatte über die Interpretation der Wahrscheinlichkeit gibt und es eine häufig / bayesianische Debatte über statistische Inferenz gibt. Dies sind zwei verschiedene (wenn auch verwandte) Debatten. In dieser Antwort geht es ausschließlich um die erste, was in Ordnung ist (und ich denke, was @William hier interessierte, als er diese Antwort akzeptierte), aber die meisten anderen Antworten beziehen sich hauptsächlich auf die zweite. Dies ist nur eine Notiz für zukünftige Leser, aber auch eine Notiz für William.
Amöbe sagt Reinstate Monica
2
Ich stimme ab, weil es keinen Verweis auf die Definition der "frequentistischen Wahrscheinlichkeit" gibt, und ohne sie macht der Beitrag keinen Sinn. Zum Beispiel ist die gegebene Definition von nicht einmal mathematisch korrekt, da die Definition von einer Grenze von Würfeln eines Würfels abhängt . Mathematische Objekte sind abstrakt und hängen nicht von physischen Objekten ab. Um zu beweisen, dass die Grenze existiert, müssen Sie einen Wahrscheinlichkeitsraum konstruieren, in dem die Zufallsvariable definiert ist, und dann beweisen, dass sie konvergiert, wofür Sie die Maßtheorie und ...n n 1 / nP({1})nn1/n
mpiktas
2
Definition der Wahrscheinlichkeit. Selbst wenn wir eine Definition zulassen, ist diese zirkulär, dh um zu überprüfen, ob das Objekt der Definition entspricht, müssen Sie das Objekt definieren. Ich möchte unbedingt einen Verweis auf ein Lehrbuch erhalten, das eine solche Definition verwendet und versucht, daraus alle in der Statistik üblichen Ergebnisse abzuleiten.
mpiktas
5
Dieser lange und ausführliche Artikel in der Stanford Encyclopedia of Philosophy über Wahrscheinlichkeitsinterpretationen enthält einen langen und ausführlichen Abschnitt über Häufigkeit und ist möglicherweise eine bessere Referenz als Ihr Link zu Wikipedia (die Stanford Encyclopedia ist im Gegensatz zu Wikipedia ziemlich maßgeblich). Es wird deutlich, dass die Frage, ob die Definition von Frequentisten überhaupt Sinn macht und was genau die Definition von Frequentisten ausmacht, Gegenstand einer 150 Jahre dauernden Debatte ist, die Sie und @mpiktas hier im Kommentarbereich offenbar nachvollziehen.
Amöbe sagt Reinstate Monica
2
@amoeba: Ich mag besonders die Erinnerung in Ihrem Link, dass wir "Wahrscheinlichkeit" auf alle möglichen Arten interpretieren könnten, die nichts mit dem üblicherweise verstandenen Konzept zu tun haben - z. B. normalisierte Länge - und immer noch mit Kolmogorovs Axiomen übereinstimmen.
Scortchi
66

Statistik ist keine Mathematik

Erstens, ich klaue @ whubers Wörter aus einem Kommentar in Stats ist nicht Mathematik? (In einem anderen Kontext angewendet, also klaue ich Wörter und zitiere nicht):

Wenn Sie "Statistik" durch "Chemie", "Ökonomie", "Ingenieurwesen" oder ein anderes Fachgebiet, das Mathematik verwendet (z. B. Hauswirtschaft), ersetzen würden, würde sich anscheinend nichts an Ihrem Argument ändern.

Alle diese Felder dürfen existieren und Fragen haben, die nicht nur durch Überprüfung der richtigen Sätze gelöst werden. Obwohl einige Antworten bei Stats nicht Mathe sind? stimme nicht zu, ich denke es ist klar, dass Statistik keine (reine) Mathematik ist. Wenn Sie Wahrscheinlichkeitstheorie betreiben möchten, einen Zweig der (reinen) Mathematik, können Sie in der Tat alle Debatten der Art, nach der Sie fragen, ignorieren. Wenn Sie die Wahrscheinlichkeitstheorie bei der Modellierung einiger realer Fragen anwenden möchten, benötigen Sie mehr als nur die Axiome und Theoreme des mathematischen Rahmens. Der Rest der Antwort schweift über diesen Punkt.

Die Behauptung "Wenn wir mathematisch korrekt sein wollen, sollten wir keine Interpretation der Wahrscheinlichkeit verbieten" erscheint ebenfalls unbegründet. Das Aufsetzen einer Interpretation auf ein mathematisches Gerüst macht die Mathematik nicht inkorrekt (solange die Interpretation nicht als Theorem im mathematischen Gerüst beansprucht wird).

In der Debatte geht es nicht (hauptsächlich) um Axiome

Obwohl es einige alternative Axiomatisierungen gibt *, geht es in der (?) Debatte nicht darum, Kolmogorov-Axiome zu bestreiten. Die Kolmogorov-Axiome und die bedingte Wahrscheinlichkeit implizieren die Bayes-Regel, die niemand bestreitet, wenn man einige Feinheiten mit Konditionierungsereignissen ohne Maß ignoriert, die zu einer regulären bedingten Wahrscheinlichkeit usw. führen, von denen ich nicht genug weiß. Wenn jedoch nicht einmal eine Zufallsvariable in Ihrem Modell ist (Modell im Sinne des mathematischen Aufbaus bestehend aus einem Wahrscheinlichkeitsraum oder einer Familie von ihnen, Zufallsvariablen usw.), ist es natürlich nicht möglich, die Bedingung zu berechnen Verteilung . Niemand bestreitet auch, dass die Frequenzeigenschaften, wenn sie richtig berechnet werden, Konsequenzen des Modells sind. Zum Beispiel sind die bedingten VerteilungenP ( X | Y ) p ( y | θ ) p ( Y ; θ ) p ( y | θ ) = p ( y , θ ) θ θXP(XY)p(yθ)in einem Bayes'schen Modell definieren Sie eine indizierte Familie von Wahrscheinlichkeitsverteilungen indem Sie einfach und wenn einige Ergebnisse für alles in letzterem gelten, sie gelten auch im ersteren für alles .p(y;θ)p(yθ)=p(y;θ)θθ

In der Debatte geht es darum, wie man die Mathematik anwendet

In den Debatten (soweit vorhanden **) geht es vielmehr darum, zu entscheiden, welche Art von Wahrscheinlichkeitsmodell für ein (reales, nicht mathematisches) Problem aufgestellt werden soll und welche Implikationen des Modells für das Zeichnen relevant sind (real) Schlussfolgerungen. Diese Fragen bestünden jedoch auch dann, wenn alle Statistiker zustimmten. Um aus dem Blog-Beitrag zu zitieren, den Sie mit [1] verlinkt haben, möchten wir Fragen wie beantworten

Wie soll ich ein Roulette gestalten, damit mein Casino $ verdient? Steigert dieser Dünger den Ernteertrag? Heilt Streptomycin Lungentuberkulose? Verursacht Rauchen Krebs? Welchen Film würde dieser Nutzer mögen? Welchem ​​Baseballspieler sollte der Red Sox einen Vertrag geben? Sollte dieser Patient eine Chemotherapie erhalten?

Die Axiome der Wahrscheinlichkeitstheorie enthalten nicht einmal eine Definition von Baseball, daher ist es offensichtlich, dass "Red Sox dem Baseballspieler X einen Vertrag geben sollte" kein Theorem der Wahrscheinlichkeitstheorie ist.

Anmerkung zu mathematischen Begründungen des Bayes'schen Ansatzes

Es gibt 'mathematische Rechtfertigungen', um alle Unbekannten als probabilistisch zu betrachten, wie das Cox-Theorem, auf das sich Jaynes bezieht (obwohl ich höre, dass es mathematische Probleme gibt, die möglicherweise behoben wurden oder nicht, ich weiß nicht, siehe [2] und Verweise darauf) oder den (subjektiven Bayes'schen) Savage-Ansatz (ich habe gehört, dass dies in [3] steht, habe das Buch aber noch nie gelesen), der beweist, dass ein rationaler Entscheidungsträger unter bestimmten Voraussetzungen eine Wahrscheinlichkeitsverteilung über Zustände haben wird der Welt und wählen Sie seine Aktion basierend auf der Maximierung des erwarteten Werts einer Utility-Funktion. Ob jedoch der Manager von Red Sox die Annahmen akzeptieren sollte oder ob wir die Theorie akzeptieren sollten, dass Rauchen Krebs verursacht, kann aus keinem mathematischen Rahmen abgeleitet werden.

Fußnoten

* Ich habe es nicht studiert, aber ich habe gehört, dass de Finetti einen Ansatz verfolgt, bei dem bedingte Wahrscheinlichkeiten primitiv sind und nicht durch Konditionierung aus dem (unbedingten) Maß erhalten werden. [4] erwähnt eine Debatte zwischen (Bayesianer) José Bernardo, Dennis Lindley und Bruno de Finetti in einem gemütlichen französischen Restaurant darüber, ob eine Aktivität erforderlich ist.σ

** Wie in dem Blog-Beitrag erwähnt, den Sie mit [1] verlinken, gibt es möglicherweise keine eindeutige Debatte zwischen jedem Statistiker, der zu einer Mannschaft gehört und die andere verachtet. Ich habe gehört, dass wir heutzutage alle Pragmatiker sind und die nutzlose Debatte vorbei ist. Nach meiner Erfahrung bestehen diese Unterschiede jedoch beispielsweise darin, ob jemand zuerst alle Unbekannten als Zufallsvariablen modelliert oder nicht und wie interessiert jemand an Frequenzgarantien ist.

Verweise

[1] Simply Statistics, ein statistischer Blog von Rafa Irizarry, Roger Peng und Jeff Leek, "Ich erkläre die Bayesian vs. Frequentist-Debatte für Datenwissenschaftler für beendet", 13. Oktober 2014, http://simplystatistics.org/2014/10 / 13 / als-angewandter-statistiker-finde-ich-die-frequentisten-versus-bayesianer-debatte-völlig-belanglos /

[2] Dupré, MJ & Tipler, FJ (2009). Neue Axiome für die rigorose Bayes'sche Wahrscheinlichkeit. Bayesian Analysis, 4 (3), 599 & ndash; 606. http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856

[3] Savage, LJ (1972). Die Grundlagen der Statistik. Courier Corporation.

[4] Bernardo, JM Die Geschichte von Valencia - Einige Details zu Ursprung und Entwicklung der Valencia International Meetings on Bayesian Statistics. http://www.uv.es/bernardo/ValenciaStory.pdf

Juho Kokkala
quelle
13
+1, insbesondere für "Die Axiome der Wahrscheinlichkeitstheorie enthalten nicht einmal eine Definition von Baseball".
Amöbe sagt Reinstate Monica
5
@ William: Es wird nicht angenommen , dass der Parameter eine konstante Zufallsvariable ist - das ist keine Tatsache, die abgeleitet oder beobachtet werden kann. Die Frage ist, ob die epistemische Unsicherheit über den wahren Wert des Parameters unter Verwendung einer Wahrscheinlichkeitsverteilung dargestellt werden soll oder nicht. (Die
Frequenzanalyse
4
@ William, der klassische Monty Hall, hat nichts, was vernünftigerweise als Parameter oder als Daten interpretiert werden könnte. Es ist ein Wahrscheinlichkeitsproblem. Der Bayesian / Frequentist-Ansatz würde nur zum Tragen kommen, wenn Sie beispielsweise den Parameter der hier beschriebenen parametrisierten Variante wikipedia.org/wiki/Monty_Hall_problem#Variants schätzen möchten, indem Sie sich mehrere Folgen der Gameshow ansehen. Ich als Bayesianer würde wahrscheinlich zB eine Beta vor und mit der Aktualisierung beginnen. Ob dies in einer Computersimulation gut funktionieren würde, könnte stark davon abhängen, wie die Computersimulation auswählt . q qqqq
Juho Kokkala
8
Ich stelle präventiv fest, dass ich nicht daran interessiert bin, eine Debatte darüber im Kommentarbereich fortzusetzen, da dies (oder diese Seite überhaupt) kein Ort für Debatten ist.
Juho Kokkala
2
Ich stimme voll und ganz zu, dass "Statistiken keine Mathematik sind". Wigner schrieb einen Aufsatz mit dem Titel "The Unreasonable Effectiveness of Mathematics in Physics", in dem argumentiert wurde, dass es keinen inhärenten Zusammenhang zwischen der abstrakten Welt der Mathematik und der konkreten Welt der Physik gebe. Es war überraschend (und wunderbar), dass die Mathematik so gut darin wirkte, die Physik zu beschreiben. Ich bin der Meinung, dass dies auch für Statistiken gilt. Ich freue mich darauf, dass jemand "Die unvernünftige Wirksamkeit der Mathematik in der Statistik" schreibt. Ich persönlich finde es erstaunlich, dass abstrakte Mathematik statistische Phänomene so gut beschreibt.
Aginensky
32

Die mathematische Grundlage für die Debatte zwischen Bayes und Frequentist ist sehr einfach. In der Bayes'schen Statistik wird der unbekannte Parameter als Zufallsvariable behandelt. in der frequentistischen Statistik wird es als fester Bestandteil behandelt. Da eine Zufallsvariable ein viel komplizierteres mathematisches Objekt ist als ein einfaches Element der Menge, ist der mathematische Unterschied offensichtlich.

Es stellt sich jedoch heraus, dass die tatsächlichen Ergebnisse in Bezug auf Modelle überraschend ähnlich sein können. Nehmen wir zum Beispiel die lineare Regression. Die Bayes'sche lineare Regression mit uninformativen Prioritäten führt zu einer Verteilung einer Regressionsparameterschätzung, deren Mittelwert gleich der Schätzung des Parameters der frequentistischen linearen Regression ist, die eine Lösung für ein Problem der kleinsten Quadrate darstellt, das nicht einmal ein Problem der Wahrscheinlichkeitstheorie ist . Dennoch ist die Mathematik, die verwendet wurde, um zu einer ähnlichen Lösung zu gelangen, aus dem oben genannten Grund ganz anders.

Aufgrund der unterschiedlichen Behandlung der mathematischen Eigenschaften des unbekannten Parameters (Zufallsvariable vs. Element der Menge) treffen sowohl die Bayes'schen als auch die frequentistischen Statistiken auf Fälle, in denen es möglicherweise vorteilhafter erscheint, einen konkurrierenden Ansatz zu verwenden. Konfidenzintervalle sind ein Paradebeispiel. Nicht auf MCMC angewiesen zu sein, um eine einfache Schätzung zu erhalten, ist eine andere. Dies sind jedoch in der Regel eher Geschmacksfragen als Fragen der Mathematik.

mpiktas
quelle
5
Obwohl die Konstante ein Sonderfall einer Zufallsvariablen ist, würde ich zögern zu folgern, dass der Bayesianismus allgemeiner ist. Sie würden keine häufigeren Ergebnisse von Bayes'schen erhalten, wenn Sie einfach die Zufallsvariable auf eine Konstante reduzieren. Der Unterschied ist tiefer. Wenn Sie davon ausgehen, dass Ihr Parameter die unbekannte Konstante ist, wird der Untersuchungsschwerpunkt zur Schätzung, die eine Zufallsvariable ist (da sie eine messbare Funktion der Stichprobe ist) und wie nahe sie dem wahren Wert des Parameters ist. oder wie man die Schätzung erhält, so dass sie der wahren Schätzung nahe kommt.
mpiktas
6
Da es sich bei der Schätzung um eine Zufallsvariable handelt, können Sie sie nicht untersuchen, indem Sie die Maßtheorie ignorieren. Daher finde ich Ihre Aussage, dass viele Statistiker eine erstaunliche Menge an Ignoranz und Missachtung der Maßtheorie aufweisen, ziemlich überraschend. Haben Sie Asymptotic Statistics von A. van der Vaart gelesen? Ich würde dieses Buch als einen sehr guten Überblick über die Funktionen der frequentistischen Statistik und der Maßtheorie betrachten, der dort ganz oben steht.
mpiktas
3
Bayesianische Statistiken leiten die Verteilung der Parameter dagegen fast sofort ab, und dann stellt sich die Frage, wie sie tatsächlich berechnet werden können (viele Untersuchungen zu verschiedenen Abtastalgorithmen, Metropolis-Hastings usw.) und welche Bedeutung die Prioritäten haben. Ich bin nicht so vertraut mit der Erforschung der Bayes'schen Statistik, daher ist meine Verallgemeinerung möglicherweise ein bisschen anders. Ich gehe auf die persönlichen Vorlieben ein,
obwohl
3
Es beginnt immer mit der Normalverteilung und ihren Konjugaten und wie weit dies Sie bringt. Da fast alle Daten, die ich arbeite, nicht normal verteilt sind, bin ich sofort misstrauisch und bevorzuge es, mit verteilungsunabhängigen Methoden zu arbeiten. Dies ist jedoch eine persönliche Präferenz, und ich finde, dass ich in der angewandten Arbeit noch kein Problem gefunden habe, bei dem der Ansatz des Frequentists so spektakulär scheitern würde, dass ich auf den Bayes-Ansatz wechseln müsste.
mpiktas
4
"Es beginnt immer mit der Normalverteilung und ihren Konjugaten und wie weit Sie damit kommen ..." - aus diesem Grund werden Monte-Carlo-Methoden verwendet, um die Verteilung der posterioren Parameter abzutasten. Diese funktionieren auch für allgemeine Distributionen (BUGS-Software und ihre Varianten).
John Donn
25

Ich mag Philosophie nicht, aber ich mag Mathematik und ich möchte ausschließlich im Rahmen von Kolmogorovs Axiomen arbeiten.

Wie genau würden Sie Kolmogorovs Axiome ohne Interpretation anwenden ? Wie würden Sie die Wahrscheinlichkeit interpretieren? Was würden Sie jemandem sagen, der Sie fragte: "Was bedeutet Ihre Schätzung der Wahrscheinlichkeit ?" 0.5Würden Sie sagen, dass Ihr Ergebnis eine Zahl von0.5, was ist richtig, da es den Axiomen folgt? Ohne Interpretation kann man nicht sagen, dass dies darauf hindeutet, wie oft wir das Ergebnis erwarten würden, wenn wir unser Experiment wiederholen würden. Sie können auch nicht sagen, dass diese Zahl Ihnen sagt, wie sicher Sie über die Möglichkeit eines Ereignisses sind. Sie können auch nicht antworten, dass dies Ihnen sagt, wie wahrscheinlich es ist, dass das Ereignis eintrifft. Wie würden Sie den erwarteten Wert interpretieren - als einige Zahlen, die mit anderen Zahlen multipliziert und summiert werden und gültig sind, da sie den Axiomen und einigen anderen Theoremen folgen?

Wenn Sie die Mathematik auf die reale Welt anwenden möchten, müssen Sie sie interpretieren. Alleine die Zahlen ohne Interpretation sind ... Zahlen. Die Menschen berechnen die erwarteten Werte nicht, um die erwarteten Werte zu schätzen, sondern um etwas über die Realität zu lernen.

Darüber hinaus ist die Wahrscheinlichkeit abstrakt, während wir Statistiken (und die Wahrscheinlichkeit an sich) auf Ereignisse in der realen Welt anwenden. Nehmen wir das einfachste Beispiel: eine faire Münze. Wenn Sie in der frequentistischen Interpretation eine solche Münze mehrmals werfen, erwarten Sie die gleiche Anzahl von Kopf und Zahl. In einem realen Experiment würde dies jedoch so gut wie nie passieren. Eine Wahrscheinlichkeit von hat also wirklich nichts mit einer bestimmten Münze zu tun, die beliebig oft geworfen wird.0.5

Wahrscheinlichkeit existiert nicht

- Bruno de Finetti

Tim
quelle
3
"Wenn Sie eine solche Münze mehrmals geworfen haben, würden Sie die gleiche Anzahl von Kopf und Zahl erwarten" - das ist ein falsches Verständnis des Gesetzes über große Zahlen. Siehe Kapitel III von Band 1 von Fellers Eine Einführung in Wahrscheinlichkeitstheorie und -anwendungen . Zum Beispiel auf S.67 "In einer Population normaler Münzen ist die Mehrheit notwendigerweise falsch eingestellt".
Chill2Macht
1
@William, was genau würdest du auf die Frage "Was bedeutet p = 0,5?" Wo ist p die Wahrscheinlichkeitsschätzung für ein Münzwurfexperiment?
Tim
1
Sie zitieren auch Feller, der "Mehrheit" erwähnt - die Mehrheit von was genau, wenn Sie keine häufigen Interpretationen der Wahrscheinlichkeit machen.?
Tim
7
Vereinfachung: Unter dem Gesichtspunkt des Frequentismus hängt die Wahrscheinlichkeit von den Anteilen der Ereignisse ab, die sich unter den möglichen Ereignissen ereignen. In der Bayes'schen Interpretation geht es darum, wie viel etwas glaubwürdig ist (siehe en.wikipedia.org/wiki/Probability#Interpretations ). Indem Sie mir etwas über den Probenraum usw. erzählten, haben Sie angenommen, dass es etwas anderes als den einzelnen zukünftigen Münzwurf gibt - dies ist Ihre Interpretation der Wahrscheinlichkeit, da es nur einen einzelnen Wurf geben wird, sodass das gesamte Argument über den Probenraum nicht gilt es. Sie haben vollkommen recht mit Ihrer Interpretation, aber das ist
Tim
5
Interpretation. Um die Wahrscheinlichkeit auf reale Ereignisse anzuwenden, müssen Sie solche Interpretationen vornehmen. Wie hoch ist die Wahrscheinlichkeit, dass Trump 2016 die US-Wahlen gewinnt? Diese Frage ist nicht zu beantworten, wenn Sie keine Annahmen über die Wahrscheinlichkeit treffen.
Tim
10

Meiner Ansicht nach besteht der Kontrast zwischen Bayes'scher und frequentistischer Folgerung darin, dass das erste Problem die Wahl des Ereignisses ist, für das Sie eine Wahrscheinlichkeit wünschen. Frequentisten nehmen an, was Sie zu beweisen versuchen (z. B. eine Nullhypothese), und berechnen dann die Wahrscheinlichkeit, unter dieser Annahme etwas zu beobachten, das Sie bereits beobachtet haben. Es gibt eine exakte Analogie zwischen solchen Wahrscheinlichkeiten der umgekehrten Informationsflussreihenfolge und der Empfindlichkeit und Spezifität in der medizinischen Diagnose, die enorme Missverständnisse verursacht haben und durch die Bayes-Regel behoben werden müssen, um die Wahrscheinlichkeiten nach dem Test zu ermitteln ("Post-Test-Wahrscheinlichkeiten"). Bayesianer berechnen die Wahrscheinlichkeit eines Ereignisses, und absolute Wahrscheinlichkeiten sind ohne Anker (nach dem Stand der Technik) nicht zu berechnen. Die Bayes'sche Wahrscheinlichkeit für die Richtigkeit einer Aussage unterscheidet sich stark von der Wahrscheinlichkeit für die Beobachtung von Daten unter einer bestimmten, nicht erkennbaren Annahme. Die Unterschiede sind ausgeprägter, wenn sich der Frequentist auf andere Analysen einstellen muss, die durchgeführt wurden oder hätten durchgeführt werden können (Multiplizität; sequentielle Tests usw.).

Die Diskussion der mathematischen Grundlagen ist also sehr interessant und eine sehr angemessene Diskussion. Aber man muss eine fundamentale Wahl zwischen Vorwärts- und Rückwärtswahrscheinlichkeiten treffen. Daher ist es unglaublich wichtig, worauf es ankommt, was nicht gerade Mathematik ist. Bayesianer glauben, dass eine vollständige Konditionierung auf das, was Sie bereits wissen, der Schlüssel ist. Frequentisten bedingen häufiger, was die Mathematik einfach macht.

Frank Harrell
quelle
9

Ich werde dies in zwei separate Fragen aufteilen und jeweils beantworten.

1.) Gibt es in Anbetracht der unterschiedlichen philosophischen Ansichten darüber, was Wahrscheinlichkeit in einer frequentistischen und einer bayesianischen Perspektive bedeutet, mathematische Wahrscheinlichkeitsregeln, die für eine Interpretation gelten und für eine andere nicht gelten?

Nein. Die Wahrscheinlichkeitsregeln bleiben zwischen den beiden Gruppen exakt gleich.

2.) Verwenden Bayesianer und Frequentisten die gleichen mathematischen Modelle, um Daten zu analysieren?

Generell nein. Dies liegt daran, dass die beiden unterschiedlichen Interpretationen nahelegen, dass ein Forscher Einblicke aus verschiedenen Quellen gewinnen kann. Insbesondere wird häufig angenommen, dass das Frequentist Framework darauf schließen lässt, dass man nur aus den beobachteten Daten auf die interessierenden Parameter schließen kann, während eine Bayes'sche Perspektive vorschlägt, dass man auch unabhängiges Expertenwissen über das Thema einbeziehen sollte. Unterschiedliche Datenquellen bedeuten, dass unterschiedliche mathematische Modelle für die Analyse verwendet werden.

Es ist auch bemerkenswert, dass es gibt viele Gräben zwischen den Modellen von den beiden Lagern verwendet, die mehr verwandt ist , was hat sich getan als das, was könnengetan werden (dh viele Modelle, die traditionell von einem Lager verwendet werden, können vom anderen Lager gerechtfertigt werden). Zum Beispiel werden BUGs-Modelle (Bayesian Inference Using Gibbs Sampling, ein Name, der die Menge der Modelle aus vielen Gründen nicht mehr genau beschreibt) traditionell mit Bayesian-Methoden analysiert. Stan zum Beispiel). Es gibt jedoch nichts, was besagt, dass diese Modelle streng bayesianisch sein müssen. Tatsächlich habe ich an dem Projekt NIMBLE gearbeitet, das diese Modelle im BUGs-Framework erstellt, dem Benutzer jedoch viel mehr Freiheit gibt, wie auf sie geschlossen werden kann. Während die überwiegende Mehrheit der von uns bereitgestellten Tools anpassbare Bayes'sche MCMC-Methoden waren, könnte man auch für diese Modelle die Maximum-Likelihood-Schätzung verwenden, eine traditionell häufig verwendete Methode. Ähnlich, Vorgänger werden oft als das betrachtet, was Sie mit Bayesian tun können, was Sie mit Frequentist-Modellen nicht tun können. Eine bestrafte Schätzung kann jedoch dieselben Modelle unter Verwendung von Regularisierungsparameterschätzungen bereitstellen (obwohl das Bayes'sche Framework eine einfachere Möglichkeit zum Begründen und Auswählen von Regularisierungsparametern bietet, während Frequentisten im besten Fall viele Daten zur Verfügung haben ", wählten wir Diese Regularisierungsparameter haben den geschätzten Fehler "... zum Guten oder Schlechten" über eine große Anzahl von quervalidierten Stichproben gesenkt.

Cliff AB
quelle
1
Ich lehne dieses Zitat ein wenig ab: "Insbesondere wird häufig angenommen, dass das Frequentist Framework darauf schließen lässt, dass man nur aus den beobachteten Daten auf die interessierenden Parameter schließen kann, während eine Bayes'sche Perspektive vorschlägt, dass man auch unabhängiges Expertenwissen einbeziehen sollte zum Thema ". In erster Linie aus dem Grund, dass Frequentisten, aus welchen Gründen auch immer, kein Interesse an unabhängigem Expertenwissen zu diesem Thema haben. Der Unterschied zwischen Frequentisten und Bayesianern ist nicht, dass die ehemaligen hartnäckigen sich weigern, Vorkenntnisse oder Kontext zu verwenden ... (1/2)
Ryan Simmons
1
... sondern dass die beiden Denkschulen dieses Vorwissen / diesen Kontext auf unterschiedliche Weise nutzen. Sie können argumentieren, dass die Bayes'sche Perspektive einen prinzipielleren Ansatz verfolgt, um dieses Vorwissen direkt in ein Modell zu integrieren (ich würde jedoch argumentieren, dass die weit verbreitete Verwendung von nicht informativen Prioritäten dieses Argument eher verwässert). Aber ich denke nicht, dass es fair ist, es als ein Problem von Frequentisten zu charakterisieren, die diese Informationen NICHT verwenden. (2/2)
Ryan Simmons
1
@ RyanSimmons: richtig, aus diesem Grund habe ich gesagt "wird oft angenommen, dass es nahe legt ...". Wenn ein Forscher zum Beispiel feststellt, dass das Regularisieren von Parameterschätzungen um die Meinung eines Experten herum auf lange Sicht zu besseren Vorhersagen führt, ist es kein Problem, dies in ein frequentistisches Framework zu integrieren ("basierend auf frequentistischen Maßnahmen hat dieser erweiterte Schätzer bessere Ergebnisse Langzeitbetriebscharakteristik als der Nur-Daten-Schätzer "). Dies ist jedoch nicht so einfach wie im Bayes'schen Rahmen.
Cliff AB
1
Fair genug! Ich stimme zu.
Ryan Simmons
5

Bayesianer und Frequentisten denken, Wahrscheinlichkeiten repräsentieren verschiedene Dinge. Frequentisten glauben, sie seien mit Frequenzen verwandt und machen nur dann Sinn, wenn Frequenzen möglich sind. Bayesianer betrachten sie als Mittel, um Unsicherheit zu repräsentieren. Da jede Tatsache ungewiss sein kann, können Sie über die Wahrscheinlichkeit von irgendetwas sprechen.

Die mathematische Konsequenz ist, dass Frequentisten denken, dass die Grundgleichungen der Wahrscheinlichkeit nur manchmal zutreffen, und Bayesianer denken, dass sie immer zutreffen. Sie sehen die gleichen Gleichungen als richtig an, unterscheiden sich jedoch in der allgemeinen Bedeutung.

Dies hat folgende praktische Konsequenzen:

(1) Bayesianer werden ihre Methoden aus den Grundgleichungen der Wahrscheinlichkeitstheorie ableiten (von denen Bayes Theorem nur ein Beispiel ist), während Frequentisten einen intuitiven Ad-hoc-Ansatz nach dem anderen erfinden, um jedes Problem zu lösen.

(2) Es gibt Theoreme, die darauf hinweisen, dass Sie, wenn Sie aufgrund unvollständiger Informationen argumentieren, die Grundgleichungen der Wahrscheinlichkeitstheorie konsistent verwenden sollten, da Sie sonst in Schwierigkeiten geraten. Viele Menschen zweifeln daran, wie aussagekräftig solche Theoreme sind, aber das sehen wir in der Praxis.

Beispielsweise besteht die Möglichkeit, dass 95% -Konfidenzintervalle in der realen Welt unschuldig aussehen und vollständig aus Werten bestehen, die nachweislich unmöglich sind (aus denselben Informationen, die zur Ableitung des Konfidenzintervalls verwendet wurden). Mit anderen Worten: Frequentistische Methoden können einer einfachen deduktiven Logik widersprechen. Bayesianische Methoden, die vollständig aus den Grundgleichungen der Wahrscheinlichkeitstheorie abgeleitet sind, haben dieses Problem nicht.

(3) Bayesian ist streng allgemeiner als Frequentist. Da es Ungewissheit über einen Sachverhalt geben kann, kann jedem Sachverhalt eine Wahrscheinlichkeit zugeordnet werden. Insbesondere wenn sich die Fakten, an denen Sie arbeiten, auf Frequenzen in der realen Welt beziehen (entweder als etwas, das Sie vorhersagen, oder als Teil der Daten), können Bayes'sche Methoden sie genauso berücksichtigen und verwenden wie jede andere reale Tatsache.

Folglich kann jedes Problem, das nach Ansicht der Frequentisten auf Bayesianer zutrifft, auch auf natürliche Weise funktionieren. Das Gegenteil ist jedoch oftmals nicht der Fall, es sei denn, Frequentisten erfinden Unterfugien, um ihre Wahrscheinlichkeit als "Frequenz" zu interpretieren, wie zum Beispiel die Vorstellung der multiplen Universen oder hypothetische Wiederholungen bis ins Unendliche, die nie ausgeführt werden und im Prinzip oft nicht möglich sind .

Laplace
quelle
7
Können Sie Verweise auf die fett gedruckten Aussagen geben, die Sie gemacht haben? Zum Beispiel "Frequentisten denken, die Grundgleichungen der Wahrscheinlichkeit gelten nur manchmal"? Und was sind die Grundgleichungen der Wahrscheinlichkeit?
mpiktas
6
Viel interessanter als die B-gegen-F-Debatte ist Ihre Bemerkung zu Konfidenzintervallen, die unmögliche Werte enthalten. Können Sie ein konkretes Beispiel für einen 95% -KI mit nur unmöglichen Werten angeben oder einen Link erstellen? Dies könnte eines der Dinge sein, die jeder Statistiker mindestens einmal in seinem Leben gesehen haben sollte (als Vorsichtsmaßnahme), aber ich habe es nicht gesehen.
Vincent
9
Dass ein CI alle "unmöglichen" Werte enthalten könnte, widerspricht überhaupt nicht der "einfachen deduktiven Logik". Dies klingt nach einem Missverständnis der Definition eines CIs - oder nach einer Verwechslung zwischen der Interpretation von CIs und glaubwürdigen Intervallen.
Whuber
7
Dies scheint eher eine philosophische Parole zu sein als eine Antwort auf die Frage des OP (bei der es streng genommen nicht um Philosophie ging).
Cliff AB
5
"Es ist möglich, dass die Schlussfolgerung, die jeder Statistiker aus einem CI ziehen würde (ohne die CIs keinen praktischen Zweck haben oder keinen Kontakt zur realen Welt haben), dem widerspricht, was aus denselben Beweisen abgeleitet werden kann." Dies untermauert in keiner Weise Ihre Behauptung, dass Frequentisten die Wahrscheinlichkeitsregeln ignorieren. Und ich befürchte, dies geht den ausgetretenen Weg von "Bayes vs Frequentists: Kampf!" das die meisten leser hier lieber meiden würden.
Cliff AB
3

Frage: Sollten wir dann, wenn wir mathematisch korrekt sein wollen, keine Interpretation der Wahrscheinlichkeit zulassen? Sind also sowohl Bayesian als auch Frequentismus mathematisch falsch?

Ja, und genau das machen die Leute sowohl in der Wissenschaftstheorie als auch in der Mathematik.

  1. Philosophischer Ansatz. Wikipedia bietet ein Kompendium von Interpretationen / Definitionen der Wahrscheinlichkeit .

  2. Mathematiker sind nicht sicher. In der Vergangenheit hatte die kolmogorowsche Schule das Wahrscheinlichkeitsmonopol: Eine Wahrscheinlichkeit ist definiert als ein endliches Maß, das dem gesamten Raum 1 zuweist ... Diese Hegemonie ist nicht länger gültig, da es neue Trends in Bezug auf die definierte Wahrscheinlichkeit gibt, wie die Quantenwahrscheinlichkeit und Freie Wahrscheinlichkeit .

Tim Allen
quelle
Verstehen Sie, was unter lockernden Annahmen der Kommutativität von Zufallsvariablen zu verstehen ist? (In Bezug auf die freie Wahrscheinlichkeit - Ich kenne nicht genug QM, um die Ideen hinter der Quantenwahrscheinlichkeit zu verstehen.) Bedeutet dies, dass oder ? Ich denke, die Diskussion der von Neumann-Algebren und der -Algebren impliziert letztere. X Y Y X C X+YY+XXYYXC
Chill2Macht
7
@William Algebren modellieren die meisten Statistiken, auf die sie angewendet werden, nicht korrekt. (In analoger Weise hat die Erfindung komplexer Zahlen in keiner Weise die Anwendung der natürlichen Zahlen auf Phänomene beeinflusst. Eine mögliche Erweiterung des mathematischen Wahrscheinlichkeitsbegriffs würde auch niemals die Art und Weise ändern, wie die Wahrscheinlichkeit - wie sie gegenwärtig verstanden wird - angewendet wird.) Tim Diese Antwort ist rätselhaft: Die einzige rein mathematische Frage bezüglich einer Wahrscheinlichkeitsanwendung ist, ob ihre Axiome konsistent sind, und das lässt sich mit einfachen Modellen leicht beweisen. C
Whuber
2

Die Bayes / Frequentist-Debatte stützt sich auf zahlreiche Gründe. Wenn Sie über mathematische Grundlagen sprechen, glaube ich nicht, dass es viel gibt.

Beide müssen unterschiedliche Näherungsmethoden für komplexe Probleme anwenden. Zwei Beispiele sind "bootstrap" für frequentist und "mcmc" für bayesian.

Sie kommen beide mit Ritualen / Prozeduren, wie man sie benutzt. Ein häufig auftretendes Beispiel ist "Schlagen Sie einen Schätzer für etwas vor und bewerten Sie seine Eigenschaften unter wiederholten Stichproben", während ein bayesianisches Beispiel "Berechnen Sie die Wahrscheinlichkeitsverteilungen für das, was Sie nicht wissen, von dem abhängig macht, was Sie wissen". Es gibt keine mathematische Grundlage, um Wahrscheinlichkeiten auf diese Weise zu verwenden.

In der Debatte geht es mehr um Anwendung, Interpretation und die Fähigkeit, Probleme der realen Welt zu lösen.

Tatsächlich wird dies oft von Leuten verwendet, die "ihre Seite" diskutieren, wobei sie ein bestimmtes "Ritual / Verfahren" anwenden, das von der "anderen Seite" verwendet wird, um zu argumentieren, dass die ganze Theorie für ihre weggeworfen werden sollte. Einige Beispiele sind ...

  • dumme Priors benutzen (und nicht kontrollieren)
  • dumme CIs verwenden (und nicht überprüfen)
  • Verwechseln einer Computertechnik mit der Theorie (Bayes ist nicht mcmc !! Gleiches gilt für die Gleichsetzung von Kreuzvalidierung und maschinellem Lernen)
  • Sprechen über ein Problem mit einer bestimmten Anwendung mit einer Theorie und nicht wie die andere Theorie das spezifische Problem "besser" lösen würde
Wahrscheinlichkeitslogik
quelle
Haha ja das ist sehr wahr, denke ich. Ich musste einem Professor eine halbe Stunde lang zuhören, wie schrecklich der Bayesianismus ist, weil es subjektiv keinen Sinn macht, sich Prioritäten einfallen zu lassen, und die ganze Zeit dachte ich: "Nun, deshalb würden Sie sich nicht für eine entscheiden davor ". Mein Punkt ist, ich stimme zu, dass Strawman Argumente im Überfluss vorhanden sind.
Chill2Macht
1

Wäre es dann nicht die einzige mathematisch korrekte Version der Statistik, die sich weigert, in Bezug auf Bayesianismus und Frequentismus alles andere als agnostisch zu sein? Wenn Methoden mit beiden Klassifikationen mathematisch korrekt sind, ist es dann nicht unangemessen, einige den anderen vorzuziehen, da dies vage, schlecht definierte Philosophien gegenüber präzisen, genau definierten Mathematiken priorisieren würde?

Nein, es folgt nicht. Personen, die ihre Gefühle nicht fühlen können, sind biologisch nicht in der Lage, Entscheidungen zu treffen, einschließlich Entscheidungen, die nur eine objektive Lösung zu haben scheinen. Der Grund dafür ist, dass rationale Entscheidungen von unserer emotionalen Kapazität und unseren kognitiven und emotionalen Vorlieben abhängen. Das ist zwar beängstigend, aber es ist die empirische Realität.

Gupta R, Koscik TR, Bechara A, Tranel D. Die Amygdala und Entscheidungsfindung. Neuropsychologia. 2011; 49 (4): 760 & ndash; 766. doi: 10.1016 / j.neuropsychologia.2010.09.029.

Eine Person, die Äpfel gegenüber Orangen bevorzugt, kann dies nicht verteidigen, da dies eine Präferenz ist. Umgekehrt kann eine Person, die Orangen gegenüber Äpfeln bevorzugt, dies nicht rational verteidigen, da dies eine Präferenz ist. Menschen, die Äpfel bevorzugen, essen oft Orangen, weil die Kosten für Äpfel im Vergleich zu den Kosten für Orangen zu hoch sind.

Ein Großteil der Bayesianischen und Frequentistischen Debatte sowie der Likelihoodistischen und Frequentistischen Debatte drehte sich um Verständnisfehler. Wenn wir uns jedoch vorstellen, dass wir eine Person haben, die in allen Methoden gut ausgebildet ist, einschließlich geringfügiger oder nicht mehr verwendeter Methoden wie der Carnapianischen Wahrscheinlichkeits- oder der Bezugsstatistik, dann ist es für sie nur vernünftig, einige Tools anderen Tools vorzuziehen.

Die Rationalität hängt nur von den Vorlieben ab. Das Verhalten ist abhängig von Vorlieben und Kosten.

Es kann der Fall sein, dass aus rein mathematischer Sicht ein Werkzeug besser ist als das andere, wobei das bessere durch eine Kosten- oder Nutzenfunktion definiert wird. Wenn jedoch keine eindeutige Antwort vorliegt, bei der nur ein Werkzeug funktionieren könnte, sind sowohl die Kosten als auch die Kosten zu berücksichtigen Die Vorlieben sind abzuwägen.

Betrachten Sie das Problem eines Buchmachers, der eine komplexe Wette anbietet. Natürlich sollte der Buchmacher in diesem Fall Bayes'sche Methoden anwenden, da diese kohärent sind und andere schöne Eigenschaften haben, aber er kann sich auch vorstellen, dass der Buchmacher nur einen Taschenrechner hat und nicht einmal einen Stift und Papier. Es kann der Fall sein, dass der Buchmacher mit seinem Taschenrechner und dem Verfolgen von Dingen im Kopf die Frequentist-Lösung berechnen kann und auf der Erde keine Chance hat, den Bayesian zu berechnen. Wenn er bereit ist, das Risiko einzugehen, "niederländisch gebucht" zu werden, und die potenziellen Kosten gering genug sind, ist es für ihn vernünftig, Wetten mit Hilfe von Frequentist-Methoden anzubieten.

Es ist vernünftig für dich , agnostisch zu sein, weil deine emotionalen Vorlieben das für dich besser finden. Es ist nicht rational, dass das Feld agnostisch ist, es sei denn, Sie glauben, dass alle Menschen Ihre emotionalen und kognitiven Vorlieben teilen, von denen wir wissen, dass dies nicht der Fall ist.

Kurz gesagt, ich verstehe nicht, was die mathematische Grundlage für die Debatte zwischen Bayesian und Frequentist ist, und wenn es keine mathematische Grundlage für die Debatte gibt (wie Wikipedia behauptet), verstehe ich nicht, warum sie überhaupt toleriert wird akademischer Diskurs.

Der Zweck der akademischen Debatte ist es, alte und neue Ideen zu beleuchten. Ein Großteil der Debatten zwischen Bayes und Frequentismus sowie zwischen Likelihoodismus und Frequentismus beruhte auf Missverständnissen und Nachdenklichkeit. Einige sind darauf zurückzuführen, dass sie keine Präferenzen für das, was sie sind, ausgesprochen haben. Eine Diskussion über die Tugenden eines Schätzers, der unvoreingenommen und laut gegenüber einem Schätzer ist, der voreingenommen und genau ist, ist eine Diskussion über emotionale Präferenzen, aber bis es jemand hat, ist es ziemlich wahrscheinlich, dass das Denken darüber auf dem gesamten Gebiet matschig bleibt.

Ich mag Philosophie nicht, aber ich mag Mathematik und ich möchte ausschließlich im Rahmen von Kolmogorovs Axiomen arbeiten.

Warum? Weil Sie Kolmogorovs Cox, de Finettis oder Savages vorziehen? Schleicht sich diese Vorliebe ein? Wahrscheinlichkeit und Statistik sind auch keine Mathematik, sie verwenden Mathematik. Es ist ein Zweig der Rhetorik. Um zu verstehen, warum dies wichtig ist, sollten Sie Ihre Aussage berücksichtigen:

Wenn eine Methode mathematisch korrekt ist, ist es gültig, die Methode zu verwenden, wenn die Annahmen der zugrunde liegenden Mathematik zutreffen. Andernfalls, wenn sie mathematisch nicht korrekt ist oder wenn die Annahmen nicht zutreffen, ist es ungültig, sie zu verwenden.

Das ist nicht wahr. Es gibt einen schönen Artikel über Konfidenzintervalle und deren Missbrauch.

Morey, Richard; Hoekstra, Eisbahn; Rouder, Jeffrey; Lee, Michael; Wagenmakers, Eric-Jan, Der Irrtum, Vertrauen in Vertrauensintervalle zu setzen, Psychonomic Bulletin & Review, 2016, Vol.23 (1), S. 103-123

Wenn Sie die verschiedenen potenziellen Konfidenzintervalle im Artikel lesen, ist jedes mathematisch gültig, aber wenn Sie dann ihre Eigenschaften bewerten, unterscheiden sie sich sehr stark. In der Tat könnten einige der bereitgestellten Konfidenzintervalle als "schlecht" angesehen werden, obwohl sie alle Annahmen des Problems erfüllen. Wenn Sie das Bayes'sche Intervall aus der Liste streichen und sich nur auf die vier Frequentist-Intervalle konzentrieren, werden Sie feststellen, dass die Intervalle möglicherweise nicht "gleich" sind, wenn Sie eine genauere Analyse durchführen, ob die Intervalle breit oder eng oder konstant sind "obwohl jeder die annahmen und anforderungen erfüllt.

Es reicht nicht aus, dass es mathematisch gültig ist, damit es nützlich oder alternativ so nützlich wie möglich ist. Ebenso könnte es mathematisch wahr sein, aber schädlich. In dem Artikel gibt es ein Intervall, das genau dann am engsten ist, wenn die geringste Menge an Informationen über den wahren Ort vorliegt, und das am breitesten ist, wenn perfektes Wissen oder nahezu perfektes Wissen über den Ort des Parameters vorliegt. Unabhängig davon erfüllt es die Deckungsanforderungen und erfüllt die Annahmen.

Mathe kann nie genug sein.

Dave Harris
quelle
Der zweite Artikel gefällt mir sehr gut. (Die Schlussfolgerung des ersten Artikels war etwas, von dem ich bereits gehört hatte, dass es mich überzeugte, und es schien mir unnötig zu sein, ihn zu lesen.) Ich stimme größtenteils dem zu, was Sie sagen. Um fair zu sein, wenn ich Mathe sage, habe ich eher die Bedeutung "Angewandte Mathematik" als auch das implizite Verständnis im Auge, dass die Fächer und Richtungen der mathematischen Forschung sowie die Wahl der mathematischen Axiome dazu gedacht sind, Beobachtungen der Mathematik zu modellieren echte Welt. Ich denke auch nicht, dass der zweite Artikel dem widerspricht, was ich sage - die Autoren nehmen den allgemeinen
Irrtum
sie mathematisch (dh genau, rigoros) und liefern dann Gegenbeispiele, die zeigen, dass sie falsch sind. Was ich zu sagen versuchte (wenn ich mich vor vielen Monaten richtig an meine Absichten erinnere), war, dass wenn Ihre "Philosophie" oder "philosophische Idee" oder was auch immer nicht in einer präzisen Aussage formuliert / eingegrenzt werden kann, dh eindeutig ausgedrückt wird, dann ist es sinnlos herumzuwerfen. Eg Frequentisten , die eine Unterscheidung zwischen MLE (MAP mit einem Flach vor) und andere Arten von objektiven priors für vage Gründe ziehen - wenn Ihr Einwand nicht in Form eines mathematischen Axiom angegeben werden kann, dann gibt es
Chill2Macht
Es ist kein guter Grund, Ihren Einwand überhaupt zu äußern, da Ihr Einwand zu vage ist, um verfälscht zu werden. Nur weil Statistik "Mathematik verwendet", heißt das meiner Meinung nach nicht, dass Statistiker zu Recht schlampiger denken als Mathematiker. Mathematiker streiten sich die ganze Zeit darüber, welche mathematischen Axiome "lohnenswert" oder "interessant" sind, um sie, wie Sie betonen, letztendlich nur auf der Grundlage emotionaler Vorlieben in Betracht zu ziehen. Aber diese Argumente sind tatsächlich in der Lage, die Substanz und Felder vorwärts bewegen, weil die Positionen der beiden Seiten sind klar und unambiguous-
Chill2Macht
B. kann man mit Klarheit sagen, dass Intuitionisten es ablehnen, das Gesetz der ausgeschlossenen Mitte anzuwenden, während andere Mathematiker damit zufrieden sind. Beachten Sie auch die heftige Debatte über das Axiom of Choice. Aber sowohl das Gesetz des ausgeschlossenen Mittelteils als auch das Axiom der Wahl sind präzise Aussagen, die unter anderen präzisen Annahmen gefälscht, als fälschbar, bewiesen usw. werden können (hängt von den anderen Annahmen ab). Das heißt, ich habe versucht zu argumentieren, dass "Philosophie" / "Emotion" nur ins Spiel kommen sollte, um Präferenzen für verschiedene eindeutige / präzise Axiome anzugeben . As
Chill2Macht
im Vergleich zu jemandem, der sagt, "Prioren sind schlecht", und der kein mathematisches Axiom nennt, das seiner Meinung nach befriedigen sollte und dessen Auswahl eines Prioren logischerweise als Verstoß gezeigt werden könnte. Ersteres ist nutzlos, während Letzteres konstruktiv ist, weil es den Gegnern etwas Konkretes gibt, mit dem sie arbeiten können, z. B. die Möglichkeit, ein alternatives Axiom vorzuschlagen, das "für dieses Problem vernünftiger anzunehmen scheint". Deshalb mag ich den zweiten Artikel, auf den Sie verlinkt haben, wirklich, weil er genau das tut - er "mathematisiert" falsche Interpretationen von CIs und beweist, dass sie falsch sind.
Chill2Macht