Dieser xkcd-Comic (Frequentists vs. Bayesians) macht sich über einen Frequentist-Statistiker lustig, der ein offensichtlich falsches Ergebnis erzielt.
Es scheint mir jedoch, dass seine Argumentation tatsächlich in dem Sinne richtig ist, dass sie der gängigen frequentistischen Methodik folgt.
Meine Frage lautet also: "Wendet er die frequentistische Methodik korrekt an?"
- Wenn nein: Was wäre eine korrekte frequentistische Folgerung in diesem Szenario? Wie kann "Vorwissen" über die Sonnenstabilität in die frequentistische Methodik integriert werden?
- Wenn ja: wtf? ;-)
bayesian
frequentist
antwortete2
quelle
quelle
Antworten:
Das Hauptproblem besteht darin, dass das erste Experiment (Sun gone nova) nicht wiederholbar ist, weshalb es für eine frequentistische Methodik, bei der die Wahrscheinlichkeit als Schätzung der Häufigkeit eines Ereignisses interpretiert wird, dass wir das Experiment viele Male wiederholen können, höchst ungeeignet ist. Im Gegensatz dazu wird die Bayes'sche Wahrscheinlichkeit als unser Glaubensgrad interpretiert, bei dem alle verfügbaren Vorkenntnisse vorhanden sind, sodass sie für die Vernunft von einmaligen Ereignissen geeignet ist. Das Würfelwurfexperiment ist wiederholbar, aber ich halte es für sehr unwahrscheinlich, dass ein Frequentist den Einfluss des ersten Experiments absichtlich ignoriert und sich der Bedeutung der erzielten Ergebnisse so sicher ist.
Obwohl es so aussieht, als ob der Autor sich über das Vertrauen der Frequentisten in wiederholbare Experimente und ihr Misstrauen gegenüber den Prioren lustig macht, würde ich sagen, dass das eigentliche Thema dieses Comics nicht die frequentistische Methodik ist, sondern die blinde Verfolgung einer im Allgemeinen ungeeigneten Methodik. Ob es lustig ist oder nicht, liegt bei Ihnen (für mich ist es das), aber ich denke, es führt mehr in die Irre als es die Unterschiede zwischen den beiden Ansätzen verdeutlicht.
quelle
Soweit ich sehen kann, ist das Frequentist-Bit soweit vernünftig:
Sei die Hypothese, dass die Sonne nicht explodiert ist und die Hypothese, die sie hat. Der p-Wert ist somit die Wahrscheinlichkeit, das Ergebnis (die Maschine sagt "Ja") unter . Unter der Annahme, dass die Maschine das Vorhandensein von Neutrinos korrekt erkennt , liegt es daran, dass die Maschine uns , weil wir zwei Sechser gewürfelt haben, wenn die Maschine unter "Ja" sagt . Somit ist der p-Wert 1/36, so dass ein Frequentist gemäß der üblichen wissenschaftlichen Praxis von Quasi-Fischern die Nullhypothese mit einem Signifikanzniveau von 95% ablehnen würde .H 1 H 0 H 0H0 H1 H0 H0
Das Ablehnen der Nullhypothese bedeutet jedoch nicht, dass Sie berechtigt sind, die Alternativhypothese zu akzeptieren, sodass die Schlussfolgerung der Frequentisten durch die Analyse nicht gerechtfertigt ist. Frequentistische Hypothesentests verkörpern die Idee des Fälschungismus (sozusagen), man kann nicht beweisen, dass etwas wahr ist, sondern nur widerlegen. Wenn Sie also behaupten möchten , gehen Sie davon aus, dass wahr ist, und fahren Sie nur fort, wenn Sie nachweisen können, dass nicht mit den Daten übereinstimmt. Dies bedeutet jedoch nicht, dass wahr ist, sondern nur, dass es den Test übersteht und als realisierbare Hypothese zumindest bis zum nächsten Test fortfährt.H 0 H 0 H 1H1 H0 H0 H1
Der Bayesianer ist auch nur ein gesunder Menschenverstand und stellt fest, dass es nichts zu verlieren gibt, wenn man eine Wette abschließt. Ich bin sicher, dass häufigere Ansätze, wenn die falsch-positiven und falsch-negativen Kosten berücksichtigt werden (Neyman-Peason?), Die gleiche Schlussfolgerung ziehen würden, als die beste Strategie in Bezug auf den langfristigen Gewinn.
Zusammenfassend: Sowohl der Frequentist als auch der Bayesianer sind hier schlampig: Der Frequentist, der blind einem Rezept folgt, ohne das angemessene Maß an Signifikanz, falsch-positive / falsch-negative Kosten oder die Physik des Problems zu berücksichtigen (dh ohne seinen gesunden Menschenverstand zu benutzen). . Der Bayesianer ist schlampig, weil er seine Priors nicht explizit angegeben hat, aber andererseits sind die Priors, die er verwendet, offensichtlich korrekt (es ist viel wahrscheinlicher, dass die Maschine lügt als die Sonne tatsächlich explodiert ist). Die Schlampigkeit ist vielleicht entschuldbar.
quelle
Warum scheint dieses Ergebnis "falsch" zu sein? Ein Bayesianer würde sagen, dass das Ergebnis kontraintuitiv zu sein scheint, da wir "vorher" glauben, wann die Sonne explodieren wird, und die Beweise, die von dieser Maschine geliefert werden, nicht ausreichen, um diese Überzeugungen zu verwischen (hauptsächlich wegen der Unsicherheit aufgrund der Münzwurf). Aber ein Frequentist ist in der Lage, eine solche Einschätzung vorzunehmen, er muss dies einfach im Kontext von Daten tun, im Gegensatz zu Glauben.
Die wahre Quelle des Paradoxons ist die Tatsache, dass der durchgeführte frequentistische statistische Test nicht alle verfügbaren Daten berücksichtigt. Es gibt kein Problem mit der Analyse im Comic, aber das Ergebnis scheint merkwürdig, weil wir wissen, dass die Sonne höchstwahrscheinlich noch lange nicht explodieren wird. Aber woher wissen wir das? Weil wir Messungen, Beobachtungen und Simulationen durchgeführt haben, die einschränken können, wann die Sonne explodiert. Daher sollte unser gesamtes Wissen diese Messungen und Datenpunkte berücksichtigen.
In einer Bayes'schen Analyse wird dazu ein Prior mithilfe dieser Messungen erstellt (obwohl das Verfahren zum Umwandeln von Messungen in Prior nicht genau definiert ist: Irgendwann muss ein erster Prior vorhanden sein, sonst sind es "Turtles All" den Weg nach unten "). Wenn der Bayesianer also seinen Prior verwendet, berücksichtigt er wirklich eine Menge zusätzlicher Informationen, die in der p-Wert-Analyse des Frequentisten nicht enthalten sind.
Um also auf Augenhöhe zu bleiben, sollte eine vollständige frequentistische Analyse des Problems dieselben zusätzlichen Daten über die Sonnenexplosion enthalten, die zur Erstellung des Bayes'schen Prior verwendet werden. Anstatt jedoch Priors zu verwenden, würde ein Frequentist einfach die Wahrscheinlichkeit erhöhen, die er verwendet, um diese anderen Messungen einzubeziehen, und sein p-Wert würde unter Verwendung dieser vollen Wahrscheinlichkeit berechnet.
Eine vollständige frequentistische Analyse würde höchstwahrscheinlich zeigen, dass der zweite Teil der Wahrscheinlichkeit viel einschränkender ist und den dominierenden Beitrag zur Berechnung des p-Werts leistet (da wir eine Fülle von Informationen über die Sonne und die Fehler in diesen Informationen haben) sind klein (hoffentlich)).
Praktisch muss man nicht alle Datenpunkte der letzten 500 Jahre sammeln, um eine häufigere Berechnung durchzuführen. Man kann sie als einen einfachen Wahrscheinlichkeitsausdruck bezeichnen, der die Unsicherheit darüber verschlüsselt, ob die Sonne explodiert ist oder nicht. Dies ähnelt dann dem Bayesianischen Prior, ist jedoch philosophisch etwas anders, da es eine Wahrscheinlichkeit ist, was bedeutet, dass es eine vorherige Messung codiert (im Gegensatz zu einem Prior, der eine a priori-Annahme codiert). Dieser neue Begriff wird ein Teil der Wahrscheinlichkeit und wird verwendet, um Konfidenzintervalle (oder p-Werte oder was auch immer) zu bilden, im Gegensatz zum Bayesianischen Prior, der integriert wird, um glaubwürdige Intervalle oder posteriore zu bilden.
quelle
Natürlich ist dieser "frequentistische" Ansatz unwissenschaftlich, da das Ergebnis kaum reproduzierbar sein wird. Sobald die Sonne in die Supernova übergeht, bleibt sie in der Supernova, sodass der Detektor immer wieder "Ja" sagen sollte. Es ist jedoch unwahrscheinlich, dass ein wiederholtes Starten dieses Computers das Ergebnis "Ja" erneut liefert. Dies wird in Bereichen erkannt, die sich als rigoros darstellen und versuchen, ihre experimentellen Ergebnisse zu reproduzieren ... was meines Wissens mit einer Wahrscheinlichkeit zwischen 5% (die Veröffentlichung des Originalpapiers war ein reiner Typ-I-Fehler) und in einigen medizinischen Bereichen etwa 30-40%. Leute, die Metaanalysen durchführen, können Sie mit besseren Zahlen versorgen. Dies ist nur das Summen, das mir von Zeit zu Zeit durch die Statistik-Weinrebe begegnet.
Ein weiteres Problem aus der Perspektive der "richtigen" Frequentisten ist, dass das Würfeln der am wenigsten leistungsfähige Test ist, mit Power = Signifikanzniveau (wenn nicht niedriger; 2,7% Power für das 5% Signifikanzniveau sind nichts, mit dem man sich rühmen muss). Die Neyman-Pearson-Theorie für t-Tests quält sich damit, zu beweisen, dass es sich um eine UMPT handelt, und eine Menge statistischer High-Brow-Theorie (die ich kaum verstehe, muss ich zugeben) widmet sich dem Ableiten der Leistungskurven und dem Finden der Bedingungen, wenn sie gegeben sind Test ist der leistungsstärkste in einer bestimmten Klasse. (Credits: @Dikran Marsupial erwähnte das Problem der Macht in einem der Kommentare.)
Ich weiß nicht, ob Sie das stört, aber der Bayesianische Statistiker wird hier als der Typ gezeigt, der keine Mathematik kennt und ein Glücksspielproblem hat. Ein ordentlicher Bayes-Statistiker postulierte den Prior, diskutierte den Grad seiner Objektivität, leitete den Posterior ab und demonstrierte, wie viel er aus den Daten gelernt hatte. Nichts davon wurde getan, so dass der Bayes'sche Prozess genauso stark vereinfacht wurde wie der häufigste.
Diese Situation zeigt das klassische Screening auf Krebs (und ich bin sicher, dass Biostatistiker es besser beschreiben können, als ich es könnte). Beim Screening auf eine seltene Krankheit mit einem unvollkommenen Instrument werden die meisten Positiven als falsch positiv eingestuft. Intelligente Statistiker wissen das und wissen es besser, billige und schmutzige Screener mit teureren und genaueren Biopsien zu verfolgen.
quelle
An diesem Comic ist nichts auszusetzen, und der Grund hat nichts mit Statistik zu tun. Es ist Wirtschaft. Wenn der Frequentist korrekt ist, wird die Erde innerhalb von 48 Stunden unbewohnbar sein. Der Wert von $ 50 ist praktisch null. Wenn der Bayesianer dies erkennt, kann er darauf wetten, dass sein Vorteil im Normalfall 50 US-Dollar und im Fall der Sonnenexplosion kaum etwas beträgt .
quelle
Nun, da das CERN entschieden hat, dass Neutrinos nicht schneller als Licht sind, würde die Schockfront der elektromagnetischen Strahlung die Erde treffen, bevor der Neutrino-Wechsel bemerkt wurde. Dies hätte zumindest (kurzfristig) spektakuläre aurorale Effekte. Somit würde die Tatsache, dass es dunkel ist, nicht verhindern, dass der Himmel beleuchtet wird; Der Mond schien zu hell (vgl. Larry Nivens "Inconstant Moon") und spektakuläre Blitze, als künstliche Satelliten verdampften und sich selbst verbrannten.
Alles in allem - vielleicht der falsche Test? (Und obwohl es vielleicht schon vorher gegeben hat - es würde nicht genügend Zeit für eine realistische Bestimmung des posterioren sein.
quelle
Ich stimme @GeorgeLewis zu, dass es möglicherweise verfrüht ist, zu dem Schluss zu kommen, dass der Frequentist-Ansatz falsch ist. Lassen Sie uns einfach den Neutrino-Detektor mehrmals ausführen, um weitere Daten zu sammeln. Keine Notwendigkeit, mit Vorgesetzten herumzuspielen.
quelle
Ein einfacherer Punkt, der unter all den wortreichen Antworten hier verloren gehen kann, ist, dass der Frequentist so dargestellt ist, dass er seine Schlussfolgerung auf der Grundlage einer einzelnen Stichprobe zieht. In der Praxis würden Sie dies niemals tun.
Das Erreichen einer gültigen Schlussfolgerung erfordert eine statistisch signifikante Stichprobengröße (oder mit anderen Worten, die Wissenschaft muss wiederholbar sein). In der Praxis würde der Frequentist die Maschine also mehrere Male laufen lassen und dann zu einer Schlussfolgerung über die resultierenden Daten kommen.
Vermutlich würde dies dazu führen, dass die Maschine die gleiche Frage mehrmals stellt. Und vermutlich, wenn die Maschine nur 1 von 36 Malen falsch ist, entsteht ein klares Muster. Und aus diesem Muster (und nicht nur aus einer einzigen Lesung) wird der Frequentist eine (ziemlich genaue, würde ich sagen) Schlussfolgerung ziehen, ob die Sonne explodiert ist oder nicht.
quelle
Die Antwort auf Ihre Frage: "Wendet er die frequentistische Methodik richtig an?" ist nein, er wendet nicht genau den frequentistischen Ansatz an. Der p-Wert für dieses Problem ist nicht genau 1/36.
Wir müssen zunächst feststellen, dass die beteiligten Hypothesen sind
H0: Die Sonne ist nicht explodiert,
H1: Die Sonne ist explodiert.
Dann,
p-Wert = P ("die Maschine gibt ja zurück" | die Sonne ist nicht explodiert).
Um diese Wahrscheinlichkeit zu berechnen, müssen wir beachten, dass "die Maschine gibt ja zurück" gleichbedeutend ist mit "der Neutrinodetektor misst die Sonne, die explodiert, UND teilt das wahre Ergebnis mit, ODER der Neutrinodetektor misst nicht die Sonne, die explodiert, UND lügt uns".
Unter der Annahme, dass der Würfelwurf unabhängig von der Messung des Neutrino-Detektors ist, können wir den p-Wert berechnen, indem wir Folgendes definieren:
p0 = P ("der Neutrinodetektor misst die Sonnenexplosion" | die Sonne ist nicht explodiert),
Dann ist der p-Wert
p-Wert = p0 × 35/36 + (1-p0) × 1/36 = (1/36) × (1+ 34 × p0).
Für dieses Problem ist der p-Wert eine Zahl zwischen 1/36 und 35/36. Der p-Wert ist genau dann 1/36, wenn p0 = 0 ist. Das heißt, eine versteckte Annahme in diesem Cartoon ist, dass die Detektormaschine niemals die Sonnenexplosion messen wird, wenn die Sonne nicht explodiert ist.
Darüber hinaus sollten in die Wahrscheinlichkeit, dass eine Anova-Explosion von außen auftritt, wesentlich mehr Informationen aufgenommen werden.
Alles Gute.
quelle
Ich sehe kein Problem mit der Herangehensweise des Frequentisten. Wenn die Nullhypothese verworfen wird, ist der p-Wert die Wahrscheinlichkeit eines Fehlers vom Typ 1. Ein Fehler vom Typ 1 weist eine echte Nullhypothese zurück. In diesem Fall haben wir einen p-Wert von 0,028. Dies bedeutet, dass von allen Hypothesentests mit diesem p-Wert, die jemals durchgeführt wurden, ungefähr 3 von 100 eine echte Nullhypothese ablehnen. Dies wäre konstruktionsbedingt einer dieser Fälle. Die Frequentisten akzeptieren, dass sie manchmal eine wahre Nullhypothese ablehnen oder eine falsche Nullhypothese beibehalten (Fehler vom Typ 2), was sie nie anders behauptet haben. Darüber hinaus quantifizieren sie auf lange Sicht genau die Häufigkeit ihrer fehlerhaften Schlussfolgerungen.
Eine weniger verwirrende Sichtweise auf dieses Ergebnis ist vielleicht der Austausch der Rollen der Hypothesen. Da die beiden Hypothesen einfach sind, ist dies leicht zu tun. Wenn die Null ist, dass die Sonne nova geworden ist, dann ist der p-Wert 35/36 = 0,972. Dies bedeutet, dass dies kein Beweis für die Hypothese ist, dass die Sonne nova geworden ist, und wir können es daher nicht aufgrund dieses Ergebnisses ablehnen. Das scheint vernünftiger zu sein. Wenn du nachdenkst. Warum sollte irgendjemand annehmen, dass die Sonne nova geworden ist? Ich würde dich fragen. Warum sollte jemand ein solches Experiment durchführen, wenn der Gedanke an die explodierende Sonne lächerlich erscheint?
Ich denke, dies zeigt nur, dass man die Nützlichkeit eines Experiments im Voraus beurteilen muss. Dieses Experiment wäre zum Beispiel völlig nutzlos, weil es etwas testet, das wir bereits vom Aufblicken zum Himmel kennen (was sicher einen p-Wert ergibt, der praktisch Null ist). Das Entwerfen eines guten Experiments ist eine Voraussetzung für eine gute Wissenschaft. Wenn Ihr Experiment schlecht geplant ist, ist es unwahrscheinlich, dass Ihre Ergebnisse nützlich sind, unabhängig davon, welches statistische Inferenz-Tool Sie verwenden.
quelle
Sehr interessantes Thema.
Hier sind nur ein paar Gedanken, keine perfekte Analyse ...
Die Verwendung des Bayes'schen Ansatzes mit einem nicht informativen Prior liefert typischerweise eine statistische Schlussfolgerung, die mit der des Frequentisten vergleichbar ist.
Warum glaubt der Bayesianer, dass die Sonne nicht explodiert ist? Weil er wie jeder weiß, dass die Sonne von Anfang an nie explodiert ist.
Wir können an einigen einfachen statistischen Modellen mit konjugierten Priors erkennen, dass die Verwendung einer vorherigen Verteilung der Verwendung der posterioren Verteilung entspricht, die aus nicht-infomativen vorherigen und vorläufigen Experimenten abgeleitet wurde.
Der obige Satz legt nahe, dass der Frequentist als Bayesianer abschließen sollte, indem er die Ergebnisse vorläufiger Experimente in sein Modell einbezieht. Und genau das macht der Bayesianer : Sein Prior beruht auf seiner Kenntnis der Vorversuche!
quelle
Dies ist natürlich ein frequentistischer 0,05-Level-Test - die Nullhypothese wird weniger als 5% der Zeit unter der Nullhypothese verworfen und selbst die Leistung unter der Alternative ist groß.
Auf der anderen Seite sagen uns frühere Informationen, dass es ziemlich unwahrscheinlich ist, dass die Sonne zu einem bestimmten Zeitpunkt in die Supernova geht, aber dass es wahrscheinlicher ist, dass wir durch Zufall eine Lüge bekommen.
Fazit: An dem Comic ist eigentlich nichts auszusetzen und es zeigt sich, dass das Testen von unplausiblen Hypothesen zu einer hohen Falschentdeckungsrate führt. Darüber hinaus möchten Sie bei der Bewertung der angebotenen Wetten wahrscheinlich frühere Informationen berücksichtigen - deshalb ist ein Bayes-Posterior in Kombination mit einer Entscheidungsanalyse so beliebt.
quelle
Meiner Meinung nach wäre eine korrektere frequentistische Analyse wie folgt: H0: Die Sonne ist explodiert und die Maschine sagt die Wahrheit. H1: Die Sonne ist nicht explodiert und die Maschine liegt.
Der p-Wert ist hier = P (Sonne explodiert). p (Maschine sagt die Wahrheit) = 0,97. P (Sonne explodiert)
Der Statistiker kann nichts schließen, ohne die Art der zweiten Wahrscheinlichkeit zu kennen.
Obwohl wir wissen, dass P (Sonne explodiert) 0 ist, weil sonnenähnliche Sterne nicht in Supernovae explodieren.
quelle