Was stimmt nicht mit dem Comic "Frequentists vs. Bayesians" von XKCD?

113

xkcd Comic Nummer 1132

Dieser xkcd-Comic (Frequentists vs. Bayesians) macht sich über einen Frequentist-Statistiker lustig, der ein offensichtlich falsches Ergebnis erzielt.

Es scheint mir jedoch, dass seine Argumentation tatsächlich in dem Sinne richtig ist, dass sie der gängigen frequentistischen Methodik folgt.

Meine Frage lautet also: "Wendet er die frequentistische Methodik korrekt an?"

  • Wenn nein: Was wäre eine korrekte frequentistische Folgerung in diesem Szenario? Wie kann "Vorwissen" über die Sonnenstabilität in die frequentistische Methodik integriert werden?
  • Wenn ja: wtf? ;-)
antwortete2
quelle
17
Diskussion auf Gelmans Blog: andrewgelman.com/2012/11/16808
Glen
5
Ich denke, eine Menge ist falsch, sowohl aus der Sicht der Frequentisten als auch aus der Sicht der Bayesianer. Meine größte Kritik: Erstens sind P-Werte letztendlich Heuristiken und Eigenschaften einer Reihe von Dingen, einschließlich des statistischen Problems, der Daten und des Experiments. Hier sind alle drei für diese bestimmte Frage grob falsch dargestellt. Zweitens verwendet der "Bayesian" einen entscheidungstheoretischen Ansatz, der nicht bayesianisch sein muss. Es ist jedoch lustig.
Momo
5
Um es aus dem Statistikbereich zu entfernen ... die Sonne ist nicht massiv genug, um Nova zu werden. QED, der Bayesianer hat recht. ( Die Sonne wird stattdessen ein roter Riese )
Ben Brocka
3
Beachten Sie insbesondere die Antwort von Randall Munroe auf Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel 12.11.12
2
Der Grund, warum der häufig auftretende Statistiker hier dumm ist, ist nicht, dass er ein häufig auftretender Statistiker ist, sondern dass er offensichtlich weiß, wie die Maschine funktioniert, dass es sich um eine unangemessene Messung handelt - und trotzdem eine Schlussfolgerung zieht.
rvl

Antworten:

44

Das Hauptproblem besteht darin, dass das erste Experiment (Sun gone nova) nicht wiederholbar ist, weshalb es für eine frequentistische Methodik, bei der die Wahrscheinlichkeit als Schätzung der Häufigkeit eines Ereignisses interpretiert wird, dass wir das Experiment viele Male wiederholen können, höchst ungeeignet ist. Im Gegensatz dazu wird die Bayes'sche Wahrscheinlichkeit als unser Glaubensgrad interpretiert, bei dem alle verfügbaren Vorkenntnisse vorhanden sind, sodass sie für die Vernunft von einmaligen Ereignissen geeignet ist. Das Würfelwurfexperiment ist wiederholbar, aber ich halte es für sehr unwahrscheinlich, dass ein Frequentist den Einfluss des ersten Experiments absichtlich ignoriert und sich der Bedeutung der erzielten Ergebnisse so sicher ist.

Obwohl es so aussieht, als ob der Autor sich über das Vertrauen der Frequentisten in wiederholbare Experimente und ihr Misstrauen gegenüber den Prioren lustig macht, würde ich sagen, dass das eigentliche Thema dieses Comics nicht die frequentistische Methodik ist, sondern die blinde Verfolgung einer im Allgemeinen ungeeigneten Methodik. Ob es lustig ist oder nicht, liegt bei Ihnen (für mich ist es das), aber ich denke, es führt mehr in die Irre als es die Unterschiede zwischen den beiden Ansätzen verdeutlicht.

Matija Piskorec
quelle
1
(+1) Eine schöne Referenz zu dieser starken und entscheidenden Annahme der Wiederholbarkeit im Frequenzbereich ist Statistical Inference in Science (2000) , Kapitel 1. (Obwohl es so viele Probleme gibt, dass es schwierig ist zu sagen, welches das Hauptproblem ist )
36
Nicht so schnell mit dem Wiederholbarkeit Argumente ... Zuerst wird das Experiment , das wiederholbar ist die Abfrage der Maschine nicht die Sonne geht nova Die Wahrheit , dass der feste , aber unbekannter Gegenstand der Folgerung. Das Abfrageexperiment kann sicherlich wiederholt werden, und wenn es ein paar Mal länger dauern würde, könnte die Strategie des Frequentismus leicht vernünftig erscheinen.
Conjugateprior
6
Zweitens sollte man im Wiederholungsgeschäft sowieso nicht zu streng sein, damit Frequentisten in nicht experimentellen Situationen nicht in der Lage sind, überhaupt etwas abzuleiten. Nehmen Sie für einen Moment an, dass 'sun goes nova' das Kandidatenereignis war. Ich bin kein Physiker, aber mir wurde gesagt, dass das Ereignis 'sun goes nova' ziemlich oft passiert (nur nicht so oft hier), so dass das für mich wie eine Wiederholung klingt. Auf jeden Fall sagen Leute wie David Cox (in 'Foundations of Statistics') fröhlich Dinge wie: "Die in Betracht gezogenen Wiederholungen sind fast immer hypothetisch . Dies scheint an sich kein Nachteil zu sein."
Conjugateprior
7
Wir könnten die Sonne als Zufallsstichprobe aus einer Population von Sonnen in parallelen Universen betrachten, in denen wir das Experiment im Prinzip wiederholen könnten, wenn wir nur einen Quantenspiegel hätten! ; o)
Dikran Beuteltier
2
Warum ist die Überprüfung auf explodierende Sonne nicht wiederholbar? Ich überprüfe jeden Morgen, und es ist noch nicht in die Luft gesprengt.
GKFX
27

Soweit ich sehen kann, ist das Frequentist-Bit soweit vernünftig:

Sei die Hypothese, dass die Sonne nicht explodiert ist und die Hypothese, die sie hat. Der p-Wert ist somit die Wahrscheinlichkeit, das Ergebnis (die Maschine sagt "Ja") unter . Unter der Annahme, dass die Maschine das Vorhandensein von Neutrinos korrekt erkennt , liegt es daran, dass die Maschine uns , weil wir zwei Sechser gewürfelt haben, wenn die Maschine unter "Ja" sagt . Somit ist der p-Wert 1/36, so dass ein Frequentist gemäß der üblichen wissenschaftlichen Praxis von Quasi-Fischern die Nullhypothese mit einem Signifikanzniveau von 95% ablehnen würde .H 1 H 0 H 0H0H1H0H0

Das Ablehnen der Nullhypothese bedeutet jedoch nicht, dass Sie berechtigt sind, die Alternativhypothese zu akzeptieren, sodass die Schlussfolgerung der Frequentisten durch die Analyse nicht gerechtfertigt ist. Frequentistische Hypothesentests verkörpern die Idee des Fälschungismus (sozusagen), man kann nicht beweisen, dass etwas wahr ist, sondern nur widerlegen. Wenn Sie also behaupten möchten , gehen Sie davon aus, dass wahr ist, und fahren Sie nur fort, wenn Sie nachweisen können, dass nicht mit den Daten übereinstimmt. Dies bedeutet jedoch nicht, dass wahr ist, sondern nur, dass es den Test übersteht und als realisierbare Hypothese zumindest bis zum nächsten Test fortfährt.H 0 H 0 H 1H1H0H0H1

Der Bayesianer ist auch nur ein gesunder Menschenverstand und stellt fest, dass es nichts zu verlieren gibt, wenn man eine Wette abschließt. Ich bin sicher, dass häufigere Ansätze, wenn die falsch-positiven und falsch-negativen Kosten berücksichtigt werden (Neyman-Peason?), Die gleiche Schlussfolgerung ziehen würden, als die beste Strategie in Bezug auf den langfristigen Gewinn.

Zusammenfassend: Sowohl der Frequentist als auch der Bayesianer sind hier schlampig: Der Frequentist, der blind einem Rezept folgt, ohne das angemessene Maß an Signifikanz, falsch-positive / falsch-negative Kosten oder die Physik des Problems zu berücksichtigen (dh ohne seinen gesunden Menschenverstand zu benutzen). . Der Bayesianer ist schlampig, weil er seine Priors nicht explizit angegeben hat, aber andererseits sind die Priors, die er verwendet, offensichtlich korrekt (es ist viel wahrscheinlicher, dass die Maschine lügt als die Sonne tatsächlich explodiert ist). Die Schlampigkeit ist vielleicht entschuldbar.

Dikran Beuteltier
quelle
4
Das Ablehnen der Nullhypothese bedeutet einfach, dass die Beobachtung unwahrscheinlich wäre, wenn H0 wahr wäre. Sie sollten H1 auf dieser Basis nicht "akzeptieren", da H1 grundsätzlich wahr sein muss, da die Beobachtungen unwahrscheinlich wären, wenn H0 wahr wäre. Die Beobachtungen können jedoch auch unter H1 unwahrscheinlich sein (was das Nullritual ignoriert) und H1 kann weniger wahrscheinlich sein als H0 a-priori (was das Nullritual ebenfalls ignoriert). Das Akzeptieren von Hypothesen ist eine schlüpfrige Tendenz, einen frequentistischen Test als Bayes-Test zu interpretieren, was in weniger elementaren Fällen häufig zu Missverständnissen führt.
Dikran Beuteltier
4
Bin nur über deinen Kommentar gestolpert. Und ich habe die gleiche Frage, die @glassy hatte. Ich möchte Ihrer Bemerkung widersprechen, dass, wenn Ihre Hypothesen den gesamten Raum der Ereignisse abdecken, hier {"Sonne ist nova gegangen", "Sonne ist nicht nova gegangen"}, ich Schwierigkeiten habe, Ihren Standpunkt zu verstehen, wie man das ablehnen kann. " Sun ist nova gegangen "führt nicht automatisch zu" Sun ist nova gegangen ". Wenn Sie eine Aussage für falsch erklären, bedeutet dies, dass ihre Negation wahr sein muss. Es wäre großartig, wenn Sie einen zuverlässigen Referenztext bereitstellen könnten, in dem dieser Punkt nach Möglichkeit klar erläutert wird. Ich würde gerne mehr darüber erfahren.
Bedeutungslos
3
Das Ablehnen der Nullhypothese bedeutet nicht automatisch, dass die Nullhypothese wahrscheinlich falsch ist, sondern dass es sinnvoll ist, mit der alternativen Hypothese fortzufahren. Dies ist (zum Teil) darauf zurückzuführen, dass der Test der frequentistischen Hypothese die vorherigen Wahrscheinlichkeiten der Hypothesen nicht berücksichtigt. Grundsätzlich können frequentistische Methoden nicht verwendet werden, um der Wahrheit einer bestimmten Hypothese eine Wahrscheinlichkeit zuzuweisen. Die Verbindung zwischen "Wir können die Nullhypothese ablehnen" und "Die Nullhypothese ist wahrscheinlich falsch" ist daher insoweit völlig subjektiv Ich kann es sehen.
Dikran Beuteltier
2
Dies ist eine Art von meinem Standpunkt, die Entscheidung, ob wir H1 akzeptieren, ist subjektiv und keine notwendige Konsequenz des Testergebnisses. "Ablehnung von H0 führt normalerweise dazu, H1 zu akzeptieren." Das Problem ist, dass die Informationen, die Sie für die Entscheidung [P (H0), P (H1), P (Z | H1)] benötigen, im Test nicht angezeigt werden. Im Wesentlichen sind einige dieser Informationen zum Teil in der Festlegung des Schwellenwerts enthalten, dies ist jedoch im Allgemeinen unvollständig und wird häufig nicht angegeben und nicht gerechtfertigt. Die Priors sind immer noch in frequentistischen Tests dabei, gleichermaßen subjektiv, aber implizit gelassen - das Schlimmste von beiden Welten! ; o)
Dikran Beuteltier
3
α
25

Warum scheint dieses Ergebnis "falsch" zu sein? Ein Bayesianer würde sagen, dass das Ergebnis kontraintuitiv zu sein scheint, da wir "vorher" glauben, wann die Sonne explodieren wird, und die Beweise, die von dieser Maschine geliefert werden, nicht ausreichen, um diese Überzeugungen zu verwischen (hauptsächlich wegen der Unsicherheit aufgrund der Münzwurf). Aber ein Frequentist ist in der Lage, eine solche Einschätzung vorzunehmen, er muss dies einfach im Kontext von Daten tun, im Gegensatz zu Glauben.

Die wahre Quelle des Paradoxons ist die Tatsache, dass der durchgeführte frequentistische statistische Test nicht alle verfügbaren Daten berücksichtigt. Es gibt kein Problem mit der Analyse im Comic, aber das Ergebnis scheint merkwürdig, weil wir wissen, dass die Sonne höchstwahrscheinlich noch lange nicht explodieren wird. Aber woher wissen wir das? Weil wir Messungen, Beobachtungen und Simulationen durchgeführt haben, die einschränken können, wann die Sonne explodiert. Daher sollte unser gesamtes Wissen diese Messungen und Datenpunkte berücksichtigen.

In einer Bayes'schen Analyse wird dazu ein Prior mithilfe dieser Messungen erstellt (obwohl das Verfahren zum Umwandeln von Messungen in Prior nicht genau definiert ist: Irgendwann muss ein erster Prior vorhanden sein, sonst sind es "Turtles All" den Weg nach unten "). Wenn der Bayesianer also seinen Prior verwendet, berücksichtigt er wirklich eine Menge zusätzlicher Informationen, die in der p-Wert-Analyse des Frequentisten nicht enthalten sind.

Um also auf Augenhöhe zu bleiben, sollte eine vollständige frequentistische Analyse des Problems dieselben zusätzlichen Daten über die Sonnenexplosion enthalten, die zur Erstellung des Bayes'schen Prior verwendet werden. Anstatt jedoch Priors zu verwenden, würde ein Frequentist einfach die Wahrscheinlichkeit erhöhen, die er verwendet, um diese anderen Messungen einzubeziehen, und sein p-Wert würde unter Verwendung dieser vollen Wahrscheinlichkeit berechnet.

L=LL

Eine vollständige frequentistische Analyse würde höchstwahrscheinlich zeigen, dass der zweite Teil der Wahrscheinlichkeit viel einschränkender ist und den dominierenden Beitrag zur Berechnung des p-Werts leistet (da wir eine Fülle von Informationen über die Sonne und die Fehler in diesen Informationen haben) sind klein (hoffentlich)).

Praktisch muss man nicht alle Datenpunkte der letzten 500 Jahre sammeln, um eine häufigere Berechnung durchzuführen. Man kann sie als einen einfachen Wahrscheinlichkeitsausdruck bezeichnen, der die Unsicherheit darüber verschlüsselt, ob die Sonne explodiert ist oder nicht. Dies ähnelt dann dem Bayesianischen Prior, ist jedoch philosophisch etwas anders, da es eine Wahrscheinlichkeit ist, was bedeutet, dass es eine vorherige Messung codiert (im Gegensatz zu einem Prior, der eine a priori-Annahme codiert). Dieser neue Begriff wird ein Teil der Wahrscheinlichkeit und wird verwendet, um Konfidenzintervalle (oder p-Werte oder was auch immer) zu bilden, im Gegensatz zum Bayesianischen Prior, der integriert wird, um glaubwürdige Intervalle oder posteriore zu bilden.

George Lewis
quelle
1
Dies sollte die akzeptierte oder am häufigsten gewählte Antwort sein.
Amelio Vazquez-Reina
11

ptTProb[Tt|H0]Tχ2p0,1/36,2/36,

Natürlich ist dieser "frequentistische" Ansatz unwissenschaftlich, da das Ergebnis kaum reproduzierbar sein wird. Sobald die Sonne in die Supernova übergeht, bleibt sie in der Supernova, sodass der Detektor immer wieder "Ja" sagen sollte. Es ist jedoch unwahrscheinlich, dass ein wiederholtes Starten dieses Computers das Ergebnis "Ja" erneut liefert. Dies wird in Bereichen erkannt, die sich als rigoros darstellen und versuchen, ihre experimentellen Ergebnisse zu reproduzieren ... was meines Wissens mit einer Wahrscheinlichkeit zwischen 5% (die Veröffentlichung des Originalpapiers war ein reiner Typ-I-Fehler) und in einigen medizinischen Bereichen etwa 30-40%. Leute, die Metaanalysen durchführen, können Sie mit besseren Zahlen versorgen. Dies ist nur das Summen, das mir von Zeit zu Zeit durch die Statistik-Weinrebe begegnet.

Ein weiteres Problem aus der Perspektive der "richtigen" Frequentisten ist, dass das Würfeln der am wenigsten leistungsfähige Test ist, mit Power = Signifikanzniveau (wenn nicht niedriger; 2,7% Power für das 5% Signifikanzniveau sind nichts, mit dem man sich rühmen muss). Die Neyman-Pearson-Theorie für t-Tests quält sich damit, zu beweisen, dass es sich um eine UMPT handelt, und eine Menge statistischer High-Brow-Theorie (die ich kaum verstehe, muss ich zugeben) widmet sich dem Ableiten der Leistungskurven und dem Finden der Bedingungen, wenn sie gegeben sind Test ist der leistungsstärkste in einer bestimmten Klasse. (Credits: @Dikran Marsupial erwähnte das Problem der Macht in einem der Kommentare.)

Ich weiß nicht, ob Sie das stört, aber der Bayesianische Statistiker wird hier als der Typ gezeigt, der keine Mathematik kennt und ein Glücksspielproblem hat. Ein ordentlicher Bayes-Statistiker postulierte den Prior, diskutierte den Grad seiner Objektivität, leitete den Posterior ab und demonstrierte, wie viel er aus den Daten gelernt hatte. Nichts davon wurde getan, so dass der Bayes'sche Prozess genauso stark vereinfacht wurde wie der häufigste.

Diese Situation zeigt das klassische Screening auf Krebs (und ich bin sicher, dass Biostatistiker es besser beschreiben können, als ich es könnte). Beim Screening auf eine seltene Krankheit mit einem unvollkommenen Instrument werden die meisten Positiven als falsch positiv eingestuft. Intelligente Statistiker wissen das und wissen es besser, billige und schmutzige Screener mit teureren und genaueren Biopsien zu verfolgen.

StasK
quelle
2
Wenn ich Ihren ersten Absatz richtig verstehe, sagen Sie, dass der Schwellenwert (0,05 im Comic) zu hoch eingestellt ist. Wenn der Comic fünf statt zwei Würfel hätte, würdest du akzeptieren, dass die Schwelle niedrig genug ist? Wie entscheidest du überhaupt über die Schwelle?
ShreevatsaR
9
Ich dachte, der Bayesianische Statistiker hat einfach berücksichtigt, dass die Wahrscheinlichkeit, dass die Sonne explodiert, sehr viel geringer ist als die Wahrscheinlichkeit, dass die Maschine lügt (also nicht unbedingt ein ahnungsloser Spieler).
Josh
8
Mehr zum Punkt: Wenn die Sonne nova geht, kann der Gewinner der Wette seine 50 $ nicht einlösen ...
kjetil b halvorsen
6
Ich denke, der Punkt hier ist, dass der frequentistische Statistiker ein Rezept befolgt, ohne an den wahren Zweck der Analyse zu denken. Der sogenannte "Bayesianer" ist eigentlich kein Bayesianer, sondern nur jemand, der seinen gesunden Menschenverstand benutzt. Es gibt viele Beispiele für blindes Rezept in wissenschaftlichen Zeitschriften, weshalb der Cartoon amüsant ist.
Dikran Beuteltier
3
Fehlende Teststatistik kann nicht ganz das Problem sein, denke ich nicht. Eine Teststatistik ist nur eine Funktion der Daten. Die Identitätsfunktion, also hier das Datum selbst, scheint also zumindest prinzipiell zu funktionieren.
Conjugateprior
6

An diesem Comic ist nichts auszusetzen, und der Grund hat nichts mit Statistik zu tun. Es ist Wirtschaft. Wenn der Frequentist korrekt ist, wird die Erde innerhalb von 48 Stunden unbewohnbar sein. Der Wert von $ 50 ist praktisch null. Wenn der Bayesianer dies erkennt, kann er darauf wetten, dass sein Vorteil im Normalfall 50 US-Dollar und im Fall der Sonnenexplosion kaum etwas beträgt .

Tony Boyles
quelle
Dies hat "etwas mit Statistik zu tun", da die Bayes'sche Statistik dies explizit als "Minimierung einer Verlustfunktion" modelliert;)
Fabio Beltramini
5

Nun, da das CERN entschieden hat, dass Neutrinos nicht schneller als Licht sind, würde die Schockfront der elektromagnetischen Strahlung die Erde treffen, bevor der Neutrino-Wechsel bemerkt wurde. Dies hätte zumindest (kurzfristig) spektakuläre aurorale Effekte. Somit würde die Tatsache, dass es dunkel ist, nicht verhindern, dass der Himmel beleuchtet wird; Der Mond schien zu hell (vgl. Larry Nivens "Inconstant Moon") und spektakuläre Blitze, als künstliche Satelliten verdampften und sich selbst verbrannten.

Alles in allem - vielleicht der falsche Test? (Und obwohl es vielleicht schon vorher gegeben hat - es würde nicht genügend Zeit für eine realistische Bestimmung des posterioren sein.

SimonN
quelle
1
Umso mehr Grund, die Hypothese, dass die Sonne explodiert ist, abzulehnen. :-)
ShreevatsaR
Das ist es also, was am Ende des Artikels gemeint ist, wenn die Autoren sagen: "Bestätigungsstudien sind erforderlich"?
DWin
Tatsächlich ist die eindeutige Folgerung im Titel enthalten, wenn Sie dies beiläufig wiederholen. Die Maschine erkennt, ob die Sonne untergegangen ist. Es besteht keine Möglichkeit eines Fehlers bei der Erkennung. Das Neutrinobit ist irrelevant. In Anbetracht dessen ist die Statistik so, dass die Maschine "nein", "nein", "nein" antwortet ... mit einer Wahrscheinlichkeit von 1/36, eine falsche Aussage zu sein (ja), bis ein einmaliges Ereignis die Statistik beendet Es tritt ein Prozess auf - dies hat auch eine Wahrscheinlichkeit von 1/36, fälschlicherweise gemeldet zu werden (Nein), wenn die Maschine während des 8-Minuten-Intervalls abgefragt wird , das erforderlich ist, um auf der Erde sichtbar zu werden.
SimonN
4

Ich stimme @GeorgeLewis zu, dass es möglicherweise verfrüht ist, zu dem Schluss zu kommen, dass der Frequentist-Ansatz falsch ist. Lassen Sie uns einfach den Neutrino-Detektor mehrmals ausführen, um weitere Daten zu sammeln. Keine Notwendigkeit, mit Vorgesetzten herumzuspielen.

RobertF
quelle
2

Ein einfacherer Punkt, der unter all den wortreichen Antworten hier verloren gehen kann, ist, dass der Frequentist so dargestellt ist, dass er seine Schlussfolgerung auf der Grundlage einer einzelnen Stichprobe zieht. In der Praxis würden Sie dies niemals tun.

Das Erreichen einer gültigen Schlussfolgerung erfordert eine statistisch signifikante Stichprobengröße (oder mit anderen Worten, die Wissenschaft muss wiederholbar sein). In der Praxis würde der Frequentist die Maschine also mehrere Male laufen lassen und dann zu einer Schlussfolgerung über die resultierenden Daten kommen.

Vermutlich würde dies dazu führen, dass die Maschine die gleiche Frage mehrmals stellt. Und vermutlich, wenn die Maschine nur 1 von 36 Malen falsch ist, entsteht ein klares Muster. Und aus diesem Muster (und nicht nur aus einer einzigen Lesung) wird der Frequentist eine (ziemlich genaue, würde ich sagen) Schlussfolgerung ziehen, ob die Sonne explodiert ist oder nicht.

aroth
quelle
4
Was meinen Sie mit "statistisch signifikanter Stichprobengröße"?
Momo
@Momo - Mehr als ein einziges Sample, das ist sicher. Es ist nicht zulässig, ein unwahrscheinliches Ergebnis zu beobachten und dann die Schlussfolgerung zu ziehen, dass das Unwahrscheinliche eingetreten ist, ohne die Beobachtung zuvor zu wiederholen, um sicherzustellen, dass es kein Zufall war. Wenn Sie eine genaue Zahl wünschen, die eine statistisch signifikante Stichprobengröße darstellt, oder einen Algorithmus zur Bestimmung einer genauen Zahl, kann wahrscheinlich ein Statistiker eine bereitstellen. Aber ich bin kein Statistiker.
Freitag,
3
Ich glaube nicht, dass es ein besonderes Problem mit einer Stichprobengröße von 1 gibt. Das Problem ist, dass der Test keine statistische Aussagekraft hat (dh der Test wird die Nullhypothese niemals ablehnen, wenn sie falsch ist). Dies zeigt jedoch ein Problem mit dem "Null-Ritual", das in dem Artikel verspottet wird, wobei das Problem der statistischen Aussagekraft (und was H1 tatsächlich ist oder frühere Informationen, die für das Problem relevant sind) ignoriert wird.
Dikran Beuteltier
1
@Dikran Das ist eine der bestmöglichen Antworten! Das Problem mit dem "Frequentisten" in der Karikatur ist, dass ein bestimmtes statistisches Ritual befolgt wurde, ohne zuvor die erforderliche Bewertung der Eigenschaften des Tests vorzunehmen. (Möglicherweise können Sie Ihre Analyse sogar erweitern, indem Sie sich überlegen, welche Verlustfunktion für diese Entscheidung relevant sein sollte.) In diesem Fall spießt der Cartoon alle Personen auf, die statistische Verfahren anwenden, ohne sie zu verstehen oder ihre Annahmen zu überprüfen.
Whuber
2

Die Antwort auf Ihre Frage: "Wendet er die frequentistische Methodik richtig an?" ist nein, er wendet nicht genau den frequentistischen Ansatz an. Der p-Wert für dieses Problem ist nicht genau 1/36.

Wir müssen zunächst feststellen, dass die beteiligten Hypothesen sind

H0: Die Sonne ist nicht explodiert,

H1: Die Sonne ist explodiert.

Dann,

p-Wert = P ("die Maschine gibt ja zurück" | die Sonne ist nicht explodiert).

Um diese Wahrscheinlichkeit zu berechnen, müssen wir beachten, dass "die Maschine gibt ja zurück" gleichbedeutend ist mit "der Neutrinodetektor misst die Sonne, die explodiert, UND teilt das wahre Ergebnis mit, ODER der Neutrinodetektor misst nicht die Sonne, die explodiert, UND lügt uns".

Unter der Annahme, dass der Würfelwurf unabhängig von der Messung des Neutrino-Detektors ist, können wir den p-Wert berechnen, indem wir Folgendes definieren:

p0 = P ("der Neutrinodetektor misst die Sonnenexplosion" | die Sonne ist nicht explodiert),

Dann ist der p-Wert

p-Wert = p0 × 35/36 + (1-p0) × 1/36 = (1/36) × (1+ 34 × p0).

Für dieses Problem ist der p-Wert eine Zahl zwischen 1/36 und 35/36. Der p-Wert ist genau dann 1/36, wenn p0 = 0 ist. Das heißt, eine versteckte Annahme in diesem Cartoon ist, dass die Detektormaschine niemals die Sonnenexplosion messen wird, wenn die Sonne nicht explodiert ist.

Darüber hinaus sollten in die Wahrscheinlichkeit, dass eine Anova-Explosion von außen auftritt, wesentlich mehr Informationen aufgenommen werden.

Alles Gute.

Alexandre Patriota
quelle
1

Ich sehe kein Problem mit der Herangehensweise des Frequentisten. Wenn die Nullhypothese verworfen wird, ist der p-Wert die Wahrscheinlichkeit eines Fehlers vom Typ 1. Ein Fehler vom Typ 1 weist eine echte Nullhypothese zurück. In diesem Fall haben wir einen p-Wert von 0,028. Dies bedeutet, dass von allen Hypothesentests mit diesem p-Wert, die jemals durchgeführt wurden, ungefähr 3 von 100 eine echte Nullhypothese ablehnen. Dies wäre konstruktionsbedingt einer dieser Fälle. Die Frequentisten akzeptieren, dass sie manchmal eine wahre Nullhypothese ablehnen oder eine falsche Nullhypothese beibehalten (Fehler vom Typ 2), was sie nie anders behauptet haben. Darüber hinaus quantifizieren sie auf lange Sicht genau die Häufigkeit ihrer fehlerhaften Schlussfolgerungen.

Eine weniger verwirrende Sichtweise auf dieses Ergebnis ist vielleicht der Austausch der Rollen der Hypothesen. Da die beiden Hypothesen einfach sind, ist dies leicht zu tun. Wenn die Null ist, dass die Sonne nova geworden ist, dann ist der p-Wert 35/36 = 0,972. Dies bedeutet, dass dies kein Beweis für die Hypothese ist, dass die Sonne nova geworden ist, und wir können es daher nicht aufgrund dieses Ergebnisses ablehnen. Das scheint vernünftiger zu sein. Wenn du nachdenkst. Warum sollte irgendjemand annehmen, dass die Sonne nova geworden ist? Ich würde dich fragen. Warum sollte jemand ein solches Experiment durchführen, wenn der Gedanke an die explodierende Sonne lächerlich erscheint?

Ich denke, dies zeigt nur, dass man die Nützlichkeit eines Experiments im Voraus beurteilen muss. Dieses Experiment wäre zum Beispiel völlig nutzlos, weil es etwas testet, das wir bereits vom Aufblicken zum Himmel kennen (was sicher einen p-Wert ergibt, der praktisch Null ist). Das Entwerfen eines guten Experiments ist eine Voraussetzung für eine gute Wissenschaft. Wenn Ihr Experiment schlecht geplant ist, ist es unwahrscheinlich, dass Ihre Ergebnisse nützlich sind, unabhängig davon, welches statistische Inferenz-Tool Sie verwenden.

Jose Garmilla
quelle
Sicher, aber der Bayesianer kann aus den gegebenen Daten / Versuchsergebnissen immer noch eine vernünftige Schlussfolgerung ziehen . Manchmal können Sie ein Experiment nicht wiederholen oder so gestalten, wie Sie es möchten.
Amelio Vazquez-Reina
Das ist ein fairer Punkt, die Bayes'sche Folgerung kann leicht frühere Erfahrungen einfließen lassen, was es für außergewöhnliche Ergebnisse schwieriger macht, ein statistisches Gewicht zu haben (es schützt uns vor statistischen Schwankungen). Dies ist jedoch auch ein nutzloses Experiment im Bayes'schen Rahmen. Der Prior ist so stark für eine Schlussfolgerung, dass kein Ergebnis in diesem Experiment dies ändern kann. Wenn der Prior so stark ist. Warum ein Experiment durchführen, bei dem keine Chance besteht, es zu ändern? Bei der Betrachtung von schwachen Prioren (die wahrscheinlich durch Daten geändert werden) denke ich, dass Bayes- und Frequentist-Methoden normalerweise "vergleichbare" Ergebnisse liefern.
Jose Garmilla
0

Wie kann "Vorwissen" über die Sonnenstabilität in die frequentistische Methodik integriert werden?

Sehr interessantes Thema.

Hier sind nur ein paar Gedanken, keine perfekte Analyse ...

Die Verwendung des Bayes'schen Ansatzes mit einem nicht informativen Prior liefert typischerweise eine statistische Schlussfolgerung, die mit der des Frequentisten vergleichbar ist.

Warum glaubt der Bayesianer, dass die Sonne nicht explodiert ist? Weil er wie jeder weiß, dass die Sonne von Anfang an nie explodiert ist.

Wir können an einigen einfachen statistischen Modellen mit konjugierten Priors erkennen, dass die Verwendung einer vorherigen Verteilung der Verwendung der posterioren Verteilung entspricht, die aus nicht-infomativen vorherigen und vorläufigen Experimenten abgeleitet wurde.

Der obige Satz legt nahe, dass der Frequentist als Bayesianer abschließen sollte, indem er die Ergebnisse vorläufiger Experimente in sein Modell einbezieht. Und genau das macht der Bayesianer : Sein Prior beruht auf seiner Kenntnis der Vorversuche!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θθx1,,xNy1Ny={Yes}θθ

H0={the sun has not exploded}

Stéphane Laurent
quelle
Die Passage "... er weiß wie jeder, dass die Sonne von Anfang an nie explodiert ist" erinnert an einen amerikanischen Feiertag, an dem Millionen von Truthähnen ( Meleagris gallopavo ) verzehrt werden. Im Laufe der Zeit weiß jeder intelligente Truthahn jeden Tag, dass er gefüttert und versorgt wird, bis zu diesem schicksalhaften (und für sie völlig unerwarteten) Tag Mitte November! Ebenso sollte unser Vertrauen in die Stabilität der Sonne gering sein, wenn wir uns nur auf die relativ kurze Geschichte der menschlichen Beobachtung verlassen müssten.
whuber
@whuber Ich hätte es vorgezogen, Ihnen diese Nachricht privat zu senden. Gibt es einen Zusammenhang zwischen Ihrem Kommentar und dem Diskussionsthema? Ich weiß nicht, ob ich Ideen habe, aber ich habe das Gefühl, dass Sie meine Antworten mehrmals kommentieren, um etwas gegen meine Antworten zu sagen. Bei der vom OP gestellten Aufgabe handelt es sich um die Interpretation eines Cartoons, und ich habe das Gefühl, dass Sie meine Antwort so kritisieren, als würde ich über ein echtes Problem sprechen. Vor kurzem habe ich es nicht gewürdigt und ich habe immer noch nicht verstanden, warum Sie hinter meinen Antworten eine wahrscheinliche "Absicht" hervorgerufen haben.
Stéphane Laurent
Es gab keine implizite oder beabsichtigte Kritik: Manchmal ist ein Kommentar wirklich nur ... ein Kommentar. Es wurde versucht, (auf humorvolle Weise) wichtige Fragen hervorzuheben, die in Ihrer Antwort angedeutet, aber nicht angesprochen wurden. Es tut mir leid, dass Sie dies entweder als persönlich oder als Angriff empfinden. BTW, dies ist eine echte Frage: es fragt Wie „Vorwissen“ ... in der frequentistischen Methodik integrieren? Diese Frage ruft Humes Kritik an der induktiven Folgerung hervor und befasst sich mit Fragen der Wissenschaftsphilosophie sowie den Grundlagen der Statistik. Es lohnt sich, darüber nachzudenken!
whuber
Es könnte auch erwähnenswert sein, dass ein erheblicher Teil Ihres Rufs auf meine Stimmen für Ihre Antworten zurückzuführen ist - was ich als materiellen Beweis dafür anbiete, dass es kein systematisches Verhalten von meiner Seite gegen Sie gibt.
whuber
2
Nein, ich habe Ihren Kommentar verstanden. Die französische Google-Übersetzung Ihres Kommentars ist bereits seltsam. Durch die Kombination meiner Englischkenntnisse und der seltsamen Google-Übersetzungen kann ich jedoch eine korrekte Übersetzung erzielen. Ich werde wahrscheinlich nächsten Monat entspannter sein.
Stéphane Laurent
0

Dies ist natürlich ein frequentistischer 0,05-Level-Test - die Nullhypothese wird weniger als 5% der Zeit unter der Nullhypothese verworfen und selbst die Leistung unter der Alternative ist groß.

Auf der anderen Seite sagen uns frühere Informationen, dass es ziemlich unwahrscheinlich ist, dass die Sonne zu einem bestimmten Zeitpunkt in die Supernova geht, aber dass es wahrscheinlicher ist, dass wir durch Zufall eine Lüge bekommen.

Fazit: An dem Comic ist eigentlich nichts auszusetzen und es zeigt sich, dass das Testen von unplausiblen Hypothesen zu einer hohen Falschentdeckungsrate führt. Darüber hinaus möchten Sie bei der Bewertung der angebotenen Wetten wahrscheinlich frühere Informationen berücksichtigen - deshalb ist ein Bayes-Posterior in Kombination mit einer Entscheidungsanalyse so beliebt.

Björn
quelle
-2

Meiner Meinung nach wäre eine korrektere frequentistische Analyse wie folgt: H0: Die Sonne ist explodiert und die Maschine sagt die Wahrheit. H1: Die Sonne ist nicht explodiert und die Maschine liegt.

Der p-Wert ist hier = P (Sonne explodiert). p (Maschine sagt die Wahrheit) = 0,97. P (Sonne explodiert)

Der Statistiker kann nichts schließen, ohne die Art der zweiten Wahrscheinlichkeit zu kennen.

Obwohl wir wissen, dass P (Sonne explodiert) 0 ist, weil sonnenähnliche Sterne nicht in Supernovae explodieren.

Chaitanya Anand
quelle