Entstehung der 5- Schwelle für die Annahme von Beweisen in der Teilchenphysik?

33

Berichten zufolge wird das CERN morgen bekannt geben, dass das Higgs-Boson experimentell mit 5- Beweisen nachgewiesen wurde. In diesem Artikel heißt es:σ

5 entspricht einer Wahrscheinlichkeit von 99,99994%, dass die Daten, die die CMS- und ATLAS-Detektoren sehen, nicht nur zufälliges Rauschen sind - und einer Wahrscheinlichkeit von 0,00006%, dass sie betrogen wurden. 5 ist die notwendige Gewissheit, damit etwas offiziell als wissenschaftliche „Entdeckung“ bezeichnet werden kann.σσ

Dies ist nicht sehr streng, aber es scheint zu sagen, dass Physiker die statistische Standardmethode "Hypothesentest" anwenden, indem sie auf , was (zweiseitig) entspricht. Oder gibt es eine andere Bedeutung?α0,0000006z=5

In weiten Teilen der Wissenschaft wird das Setzen von Alpha auf 0,05 natürlich routinemäßig durchgeführt. Dies wäre gleichbedeutend mit einem "Zwei- " -Zeichen, obwohl ich noch nie davon gehört habe, dass es so heißt. Gibt es andere Bereiche (außer der Teilchenphysik), in denen eine viel strengere Definition von Alpha Standard ist? Kennt jemand eine Referenz dafür, wie die Fünf- Regel von der Teilchenphysik akzeptiert wurde?σσ

Update: Ich stelle diese Frage aus einem einfachen Grund. Mein Buch Intuitive Biostatistik (wie die meisten Statistikbücher) enthält einen Abschnitt, in dem erläutert wird, wie willkürlich die übliche "P <0,05" -Regel ist. Ich möchte dieses Beispiel für ein wissenschaftliches Gebiet hinzufügen, in dem der Wert von viel (viel!) Kleiner istα als notwendig erachtet wird. Wenn das Beispiel jedoch mit Bayes'schen Methoden komplizierter ist (wie einige Kommentare unten nahelegen), wäre es nicht ganz passend oder würde viel mehr Erklärung erfordern.

Harvey Motulsky
quelle
2
Schon mal was von "Six Sigma" gehört ?
Daniel R Hicks
Bei der Qualitätskontrolle wird Six Sigma berücksichtigt, wie Daniel mit seiner Frage / Bemerkung vorschlägt. Diese Zurückweisungswahrscheinlichkeiten setzen alle eine Abtastung aus einer Normalverteilung voraus, und die Endwahrscheinlichkeiten könnten für andere Verteilungen größer sein. Die Verwendung von Extremen wie 5 oder 6 Sigma kann nur unter besonderen Umständen sinnvoll sein. In der Praxis machen Stichprobengröße und Variabilität der Daten Rückschlüsse über 2 oder 3 Sigma unmöglich.
Michael R. Chernick
1
Grundsätzlich sind die meisten Teilchenphysiker wohler mit Bayes - Ideen , wenn die Parameter zu berechnen, so dass sie tatsächlich sind „ sicher, die Daten und der priors gegeben, dass das Signal des Higgs nicht gleich Null“, was aus sicherlich anders sagen , dass Es gibt nur eine "0,01-prozentige Wahrscheinlichkeit, dass das Signal zufälliges Rauschen ist" (es gibt auch systematische nicht zufällige Schwankungen!). [1]: physics.stackexchange.com/questions/8752/…X%
Néstor
3
@ Néstor: Ich schaue mir gerade die Live-Übertragung der Higgs-Pressekonferenz an, und niemand erwähnt Bayes'sche Interpretationen. "p-Werte" und "Signifikanzniveau" werden verwendet, aber nur schrecklich falsch informierte Bayesianer würden diese als Wahrscheinlichkeiten interpretieren, dass das Signal zufälliges Rauschen ist. Ich denke, dass der Text im Zitat in der Frage des OP einfach eine Fehlinterpretation dessen ist, was ein p-Wert wirklich ist.
MånsT
1
Übrigens habe ich in meinem Blog einen Blogeintrag zu diesem Thema verfasst: randomastronomy.wordpress.com .
Néstor

Antworten:

13

In den meisten statistischen Anwendungen gibt es den alten Spruch "Alle Modelle sind falsch, manche sind nützlich". In diesem Fall hätten wir nur erwartet, dass ein Modell auf einem bestimmten Niveau funktioniert, da wir einen unglaublich komplizierten Prozess mit einem einfachen Modell beschreiben.

Die Physik ist sehr unterschiedlich, daher ist die aus statistischen Modellen entwickelte Intuition nicht so angemessen. In der Physik, insbesondere in der Teilchenphysik, die sich direkt mit grundlegenden physikalischen Gesetzen befasst, soll das Modell tatsächlich eine genaue Beschreibung der Realität sein. Jede Abweichung von den Vorhersagen des Modells muss vollständig durch experimentelles Rauschen und nicht durch eine Einschränkung des Modells erklärt werden. Dies bedeutet , dass , wenn das Modell ist gut und richtig , und die experimentelle Vorrichtung verstand die statistische Signifikanz sollte sehr hoch sein , daher der eingestellte hohe Balken.

Der andere Grund ist historisch: Die Teilchenphysik wurde in der Vergangenheit verbrannt, weil „Entdeckungen“ auf niedrigeren Signifikanzniveaus später zurückgezogen wurden, weshalb sie jetzt im Allgemeinen vorsichtiger sind.

Bogdanovist
quelle
1
Stimmen Sie zu, dass die Physik standardmäßige statistische Hypothesentests mit einem sehr niedrigen Alpha verwendet (in diesem Fall jedenfalls)? Oder verwenden sie eine Art Bayes'schen Ansatz, wie Nestor oben in einem Kommentar sagte?
Harvey Motulsky
2
Mein Verständnis von Gesprächen mit einigen Leuten, die ich kenne und die an ATLAS arbeiten, ist, dass die Analyse alle sehr bayesianisch ist. Es sind jedoch niedrigere Levels (dh diejenigen, die die Arbeit tatsächlich erledigen). Es würde mich nicht überraschen, wenn einige der sprechenden Köpfe weiter oben in der Kette ein schlechteres Verständnis für die Interpretation hätten. Abgesehen davon war die Präsentation der LHC-Ergebnisse ziemlich schlecht und wirkte nicht wirklich bayesianisch, wie andere angemerkt haben.
Bogdanovist
2
Ich habe immer gedacht, dass sich insbesondere die Teilchenphysik auch mit Milliarden von Ereignissen befasst, also muss man die Messlatte sehr hoch legen.
Wayne
11

Geschichte und Herkunft

Laut Robert D. Cousins 1 und Tommaso Dorigo 2 liegt der Ursprung des 5 σ- Schwellenursprungs in der frühen Teilchenphysik der 60er Jahre, als zahlreiche Histogramme von Streuexperimenten untersucht und nach Peaks / Beulen gesucht wurden, die auf neu entdeckte Teilchen hindeuten könnten . Der Schwellenwert ist eine grobe Regel, um die mehrfachen Vergleiche zu berücksichtigen, die durchgeführt werden.125σ

Beide Autoren verweisen auf einen Artikel aus dem Jahr 1968 aus Rosenfeld 3 , der sich mit der Frage befasste, ob es weit entfernte Mesonen und Baryonen gibt oder nicht, für die mehrere 4 σ- Effekte gemessen wurden. Der Artikel beantwortete die Frage negativ, indem er argumentierte, dass die Anzahl der veröffentlichten Patentansprüche der statistisch erwarteten Anzahl der Schwankungen entspreche. Zusammen mit mehreren Berechnungen, die dieses Argument stützen, förderte der Artikel die Verwendung der 5- σ- Ebene:34σ5σ

(Kππ)3/2,(πρ)--3σ>4σ

und später in der Zeitung (Schwerpunkt liegt bei mir)

4σ3σ5σ

Tommaso scheint vorsichtig zu sein, dass es mit dem Rosenfeld-Artikel angefangen hat

Tommaso: "Wir sollten jedoch beachten, dass der Artikel 1968 geschrieben wurde, aber das strenge Kriterium von fünf Standardabweichungen für Entdeckungsansprüche in den siebziger und achtziger Jahren nicht übernommen wurde. Beispielsweise wurde kein Fünf-Sigma-Kriterium verwendet für die Entdeckung der W- und Z-Bosonen, die Rubbia und Van der Meer 1984 den Nobelpreis für Physik einbrachten. "

5σ4

Schneider: "Häufig werden 'Vertrauensniveaus' von 95% oder 99% für scheinbar nicht übereinstimmende Daten angegeben, aber das sind nur zwei oder drei statistische Sigmas. Mir wurde beigebracht, nicht weniger als fünf Sigma zu glauben , was Sie denken Das ist eine absurd strenge Anforderung - so etwas wie ein Konfidenzniveau von 99,9999%. Aber natürlich wird eine solche Grenze verwendet, weil die tatsächliche Größe von Sigma so gut wie nie bekannt ist. Es gibt einfach zu viele freie Variablen in der Astronomie, die wir können nicht kontrollieren oder nicht wissen. "

4σ5σ5

Franklin: Bis 2003 scheint das 5-Standardabweichungskriterium für "Beobachtung von" in Kraft getreten zu sein

...

Ein Mitglied der BaBar-Kollaboration erinnert daran, dass um diese Zeit das 5-Sigma-Kriterium von den Herausgebern der Physical Review Letters als Richtlinie herausgegeben wurde


Moderne Nutzung

5σ67

Z=55σ2,87×10-7

5σ

  • 5σ3σ4σ

  • 5σ

  • σσσ6σ

  • 5σ

5σ8,912


Andere Felder

Es ist interessant festzustellen, dass viele andere wissenschaftliche Bereiche keine ähnlichen Schwellenwerte haben oder sich irgendwie nicht mit dem Thema befassen. Ich stelle mir vor, dass dies bei Experimenten mit Menschen etwas Sinn macht, bei denen es sehr kostspielig (oder unmöglich) ist, ein Experiment mit einer .05- oder .01-Signifikanz zu erweitern.

1011


  1. Cousins, RD (2017). Das Jeffreys-Lindley-Paradoxon und die Entdeckungskriterien in der Hochenergiephysik. Synthese, 194 (2), 395 & ndash; 432. arxiv link

  2. Dorigo, T. (2013) Entmystifizierung des Fünf-Sigma-Kriteriums, von science20.com 2019-03-07

  3. Rosenfeld, AH (1968). Gibt es weit entfernte Mesonen oder Baryonen? Web-Quelle: Stipendium

  4. G. Burbidge, M. Roberts, S. Schneider, N. Sharp & W. Tifft (1990, November). Podiumsdiskussion: Probleme mit Redshift. In der NASA Conference Publication (Vol. 3098, S. 462). Link zur Fotokopie auf harvard.edu

  5. Franklin, A. (2013). Verschiebungsmaßstäbe: Experimente in der Teilchenphysik im 20. Jahrhundert. University of Pittsburgh Press.

  6. Was bedeutet das 5-Sigma? von physics.org 07.03.2019

  7. Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Übersicht über die Teilchenphysik. Physical Review D-Teilchen, Felder, Gravitation und Kosmologie, 86 (1), 010001. (Abschnitt 36.2.2. Signifikanztests, Seite 394, Link aps.org )

  8. Lyons, L. (2013). Die Bedeutung von 5 Sigma entdecken. arXiv-Vorabdruck arXiv: 1310.1284. arxiv link

  9. Lyons, L. (2014). Statistische Probleme bei der Suche nach neuer Physik. arXiv preprint arxiv link

  10. Baker, M. (2015). Über die Hälfte der Psychologiestudien scheitert am Reproduzierbarkeitstest. Nature News. von nature.com 07.03.2019

  11. Horton, R. (2015). Offline: Was ist das 5-Sigma der Medizin? The Lancet, 385 (9976), 1380. von thelancet.com 2019-03-07

Sextus Empiricus
quelle
4

Aus einem ganz anderen Grund als der Physik gibt es andere Bereiche mit viel strengeren Alphas, in denen Hypothesentests durchgeführt werden. Genetische Epidemiologie gehört dazu, insbesondere wenn sie "GWAS" (Genome-Wide Association Study) verwenden, um verschiedene genetische Marker für Krankheiten zu untersuchen.

Da es sich bei einer GWAS-Studie um eine umfangreiche Übung zum Testen mehrerer Hypothesen handelt, basieren die modernsten Analysetechniken auf strengeren Alphas als 0,05. Andere solche "Kandidatenscreening" -Studientechniken, die im Anschluss an die Genomstudien folgen, werden wahrscheinlich dasselbe tun.

Fomite
quelle
2
α