Warum 1% und 5% in Bezug auf p-Werte? Warum nicht 6% oder 10%?

80

In Bezug auf den s frage ich mich, warum 1 % und % der Goldstandard zu sein scheinen . Warum nicht andere Werte wie 6 % oder 10 %?5"statistical significance"610

Gibt es einen fundamentalen mathematischen Grund dafür oder handelt es sich nur um eine weit verbreitete Konvention?

Contango
quelle
2
Was wäre, wenn jeder 12 Finger hätte? Wir würden die Basis 12 und nicht die Basis 10 zählen. Das bedeutet, dass "1%" 1/144 oder 0,0069444444 ist.
Contango

Antworten:

77

Wenn Sie die nachstehenden Referenzen überprüfen, werden Sie im Hintergrund einige Variationen feststellen, obwohl es einige gemeinsame Elemente gibt.

Diese Zahlen basieren zumindest teilweise auf Kommentaren von Fisher, wo er sagte

(während ein Level von 1/20 besprochen wird)

Es ist zweckmäßig, diesen Punkt als Grenze bei der Beurteilung zu betrachten, ob eine Abweichung als signifikant anzusehen ist oder nicht. Abweichungen, die das Doppelte der Standardabweichung überschreiten, werden daher formal als signifikant angesehen

Fisher, RA (1925) Statistical Methods for Research Workers , p. 47

Andererseits war er manchmal breiter:

Wenn einer von zwanzig nicht hoch genug ist, können wir, wenn wir es vorziehen, die Linie zu einem von fünfzig (dem 2-Prozent-Punkt) oder einem von hundert (dem 1-Prozent-Punkt) ziehen. Persönlich bevorzugt der Verfasser, einen niedrigen Signifikanzstandard bei 5 Prozent festzulegen und alle Ergebnisse, die dieses Niveau nicht erreichen, vollständig zu ignorieren. Eine wissenschaftliche Tatsache sollte nur dann als experimentell erwiesen angesehen werden, wenn es sich um ein richtig gestaltetes Experiment handelt dieses Signifikanzniveau selten verfehlt .

Fisher, RA (1926) Die Anordnung von Feldexperimenten .
Zeitschrift des Landwirtschaftsministeriums, p. 504

Fisher verwendete auch 5% für eine der Tabellen seines Buches - aber die meisten seiner anderen Tabellen hatten eine größere Vielfalt von Signifikanzniveaus

Einige seiner Kommentare haben mehr oder weniger strenge (dh niedrigere oder höhere Alpha-Werte) Ansätze in verschiedenen Situationen nahegelegt.

Diese Art der obigen Diskussion führte zu der Tendenz, Tabellen mit 5% und 1% Signifikanzniveaus (und manchmal mit anderen, wie 10%, 2% und 0,5%) zu erstellen, da keine anderen "Standard" -Werte verwendet werden konnten.

In diesem Artikel jedoch Artikel schlagen Cowles und Davis jedoch vor, dass die Verwendung von 5% - oder zumindest etwas in der Nähe davon - weiter zurückreicht als der Kommentar von Fisher.

Kurz gesagt, unser Einsatz von 5% (und in geringerem Maße von 1%) ist eine ziemlich willkürliche Konvention, obwohl viele Leute das Gefühl haben, für viele Probleme in der richtigen Art von Ballpark zu sein.

Es gibt auch keinen besonderen Grund Wert im Allgemeinen verwendet werden sollte.

Weitere Referenzen:

Dallal, Gerard E. (2012). Das kleine Handbuch der statistischen Praxis. - Warum 0,05?

Stigler, Stephen (Dezember 2008). "Fischer und das 5% -Niveau". Chance 21 (4): 12. hier verfügbar

(Zwischen ihnen gibt es einiges an Hintergrundwissen - es sieht so aus, als gäbe es ein gutes Argument dafür, dass ein Signifikanzniveau zumindest im allgemeinen Standard von 5% - etwa zwischen 2% und 10% - mehr oder weniger gut war die Luft für eine Weile.)

Glen_b
quelle
36

Ich muss eine Nichtantwort geben (wie hier ):

"... sicherlich liebt Gott die .06 fast so sehr wie die .05. Kann es irgendeinen Zweifel geben, dass Gott die Beweiskraft für oder gegen die Null als eine ziemlich kontinuierliche Funktion der Größe von p ansieht?" (S.1277)

Rosnow, RL & Rosenthal, R. (1989). Statistische Verfahren und die Begründung des Wissens in der Psychologie. American Psychologist , 44 (10), 1276 & ndash; 1284. pdf

Das Papier enthält weitere Diskussionen zu diesem Thema.

Henrik
quelle
9
Und was ist mit 0.055? :)
nico
33
@nico Niemand mag
0.055
18

Ich glaube, dass den 5% eine gewisse Psychologie zugrunde liegt. Ich muss sagen, dass ich mich nicht mehr daran erinnere, wo ich das aufgegriffen habe, aber hier ist die Übung, die ich für jede Intro-Statistikklasse während des Studiums gemacht habe.

Stellen Sie sich vor, ein Fremder kommt in einer Kneipe auf Sie zu und sagt Ihnen: "Ich habe eine voreingenommene Münze, die häufiger Kopf als Zahl produziert. Möchten Sie eine von mir kaufen, damit Sie mit Ihren Freunden wetten und damit Geld verdienen können?" Sie stimmen zögernd zu, einen Blick darauf zu werfen und die Münze etwa zehnmal zu werfen. Frage : Wie oft muss es Kopf / Zahl landen, um Sie davon zu überzeugen, dass es voreingenommen ist?

Dann nehme ich ein Handzeichen: Wer wäre überzeugt, dass die Münze voreingenommen ist, wenn der Split 5/5 beträgt? 4/6? 3/7? 2/8? 1/9? 0/10? Nun, die ersten zwei oder drei werden niemanden überzeugen, und die letzten würden jeden überzeugen; 2/8 und 1/9 würden jedoch die meisten Leute überzeugen. Wenn Sie nun die Binomialtabelle nachschlagen, sind 2/8 5,5% und 1/9 1%. QED.

n

In einer anderen Antwort zitiert Glen_b Fisher mit der Diskussion darüber, ob diese magischen Zahlen geändert werden sollten, je nachdem, wie ernst das Problem ist. Machen Sie es bitte nicht. "Es gibt eine neue Behandlung für die Leukämie Ihrer Schwester, aber es würde sie entweder heilen 3 Monate oder töte sie in 3 Tagen, also lass uns ein paar Münzen werfen "- das würde so albern aussehen wie der berüchtigte xkcd-Comic , den selbst Andrew Gelman nicht so sehr mochte.

χ2 Test für Proportionen und seine Kraft.

StasK
quelle
3
Zauberer können oft das Umwerfen von Münzen kontrollieren. Statistiker-Mathematiker-Zauberer (Permut nach Geschmack) Persi Diaconis ist dafür bekannt (und vieles mehr).
Nick Cox
@StasK - Vor ein paar Jahren habe ich eine Frage gestellt, die der in Ihrem zweiten Absatz oben entspricht. Hier ist der Link: stats.stackexchange.com/questions/7036/…
bill_080
Rechnung, Sie fragten nach der Macht, im Wesentlichen. Diese Frage bezieht sich auf die Ebene des Tests.
StasK
9

5% scheinen von 4,56% durch Fisher gerundet worden zu sein, was "den Endbereichen der Kurve jenseits des Mittelwerts plus drei oder minus drei wahrscheinlichen Fehlern" entspricht (Hurlbert & Lombardi, 2009).

Ein weiteres Element der Geschichte scheint die Reproduktion von Tabellen mit kritischen Werten zu sein (Pearson et al., 1990; Lehmann, 1993). Fisher erhielt von Pearson keine Erlaubnis, seine Tabellen zu verwenden (wahrscheinlich sowohl aufgrund der Vermarktung seiner eigenen Publikation durch Pearson (Hurlbert & Lombardi, 2009) als auch aufgrund des problematischen Charakters ihrer Beziehung.

Hurlbert, SH & Lombardi, CM (2009, Oktober). Endgültiger Zusammenbruch des entscheidungswissenschaftlichen Rahmens von Neyman-Pearson und Aufstieg des NeoFisherian. In Annales Zoologici Fennici (Bd. 46, Nr. 5, S. 311-349). Finnisches Zoologisches und Botanisches Verlagswesen

Lehmann, EL (1993). Die Fisher, Neyman-Pearson-Theorien zum Testen von Hypothesen: Eine Theorie oder zwei ?. Journal of the American Statistical Association, 88 (424), 1242-1249.

ES Pearson, WS Gosset, RL Plackett & GA Barnard (1990). Student: eine statistische Biographie von William Sealy Gosset. Oxford University Press, USA.

Siehe auch: Gigerenzer, G. (2004). Gedankenlose Statistiken. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R. & Lindsay, RM (2008). Warum sind P-Werte kein nützliches Beweismittel bei statistischen Signifikanztests? Theory & Psychology, 18 (1), 69 & ndash; 88.

Wichsen
quelle
7

Mir scheint, die Antwort liegt mehr in der Spieltheorie der Forschung als in der Statistik. 1% und 5% sind in das allgemeine Bewusstsein eingebrannt, was bedeutet, dass die Forscher nicht in der Lage sind, Signifikanzniveaus zu wählen, die ihren Vorlieben entsprechen. Nehmen wir an, wir hätten ein Papier mit einem p-Wert von 0,055 gesehen und bei dem das Signifikanzniveau auf 6% festgelegt wurde - es würden Fragen gestellt. 1% und 5% bieten eine Form des glaubwürdigen Engagements.

Vermutungen
quelle
7
Vielleicht, aber glauben Sie, Forscher manipulieren keine Regressionen, verwenden wiederholte Tests usw., um beispielsweise das festgelegte 5% -Niveau zu unterschreiten ...
kirk
Natürlich ist das möglich und passiert wahrscheinlich. Aber die Frage war ungefähr 1% und 5%. Es scheint für mich ein Versuch zu sein, eine soziale Konvention zu etablieren, wann etwas als signifikant akzeptiert werden soll. Diese sind willkürlich, aber sie sind für Forscher als Gruppe willkürlich und nicht für einzelne Forscher willkürlich.
Vermutungen
3
Einverstanden habe ich nur darauf hingewiesen, dass konventionelle Signifikanzniveaus nicht bedeuten, dass Fragen nicht gestellt werden sollten, wie Sie in Ihrem Beitrag gefolgert haben. Nur weil ein Papier auf herkömmlichem Niveau ein signifikantes Ergebnis liefert, heißt das nicht, dass es glaubwürdig ist!
Kirk
Ah, ich habe glaubwürdig im Sinne der Spieltheorie verwendet (oder versucht). Wie bei Ihnen machen Sie eine Bedrohung glaubwürdig, wenn es sich nicht um etwas handelt, worüber Sie später zurückweichen oder Ihre Meinung ändern können. In diesem Fall würde es einzelnen Forschern schwer fallen, sich auf eine andere willkürliche Schwelle zu begeben.
Vermutungen
2
p
6

Meine persönliche Hypothese lautet, dass 0,05 (oder 1 in 20) mit einem at / z-Wert von (sehr nahe an) 2 assoziiert ist. Die Verwendung von 2 ist hilfreich, da es sehr einfach ist, zu erkennen, ob Ihr Ergebnis statistisch signifikant ist. Es gibt keine anderen Zusammenflüsse von runden Zahlen.

Jeremy Miles
quelle
7
Z=1Z=3
9
1/31/201/4001/16000z=1,2,3,4
1
:) Hmm ... guter Punkt. Aber Sie müssen an das gebunden sein, was Sie als Cut-Off verwenden würden - 1/3 ist ein wenig nachlässig, 1/400 eine Note stringent.
Jeremy Miles
10
Genau darum geht es mir, Jeremy: Die Tradition von 5% und 1% basiert zumindest teilweise auf einem Konzept des statistischen Risikos ("ein bisschen nachlässig" oder "ein bisschen streng") und ist ursprünglich nicht so leiten sich aus einer beliebigen Faustregel ab.
whuber
1
Z=11/π
6

Die einzig richtige Nummer ist .04284731

... das ist eine flippige Antwort, die bedeuten soll, dass die Wahl von .05 im Wesentlichen willkürlich ist. Normalerweise gebe ich nur den p-Wert an und nicht den Wert, unter dem der p-Wert liegt.

"Signifikanz" ist eine kontinuierliche Variable, und Diskretisierung schadet meiner Meinung nach oft mehr als sie nützt. Ich meine, wenn p = 0,13, haben Sie mehr Vertrauen als wenn p = 0,21 und weniger als wenn p = 0,003

generic_user
quelle
Nun, zu Zeiten von Tischen war man mehr oder weniger gezwungen, zu diskretisieren ... da Tische im Unterricht verwendet werden, geht das weiter ...
kjetil b halvorsen
@kjetilbhalvorsen naja die tischmacher haben sich eindeutig geirrt .04284731 nicht für ihre kritischen werte zu wählen.
generic_user
2

Dies ist ein Bereich des Hypothesentests, der mich immer fasziniert hat. Insbesondere, weil sich eines Tages jemand für eine willkürliche Zahl entschieden hat, die das Testverfahren dichotomisiert hat, und seitdem nur noch selten in Frage gestellt wird.

Ich erinnere mich, dass ein Dozent uns sagte, wir sollten nicht zu sehr auf den Staiger- und Stock-Test von Instrumentenvariablen vertrauen (wobei der F-Wert in der ersten Regressionsstufe über 10 liegen sollte, um schwache Instrumentenprobleme zu vermeiden), weil die Zahl 10 a war völlig willkürliche Wahl. Ich erinnere mich, dass ich sagte: "Aber machen wir das nicht mit regelmäßigen Hypothesentests ?????"

EconStats
quelle
5
Ist dies als Antwort gedacht, @EconStats? Es scheint eher ein Kommentar zu sein. Denken Sie daran, dass der Lebenslauf nicht als Diskussionsforum gedacht ist. Würde es Ihnen etwas ausmachen, die Antwort in diesem Beitrag markanter zu gestalten?
gung
1
Entschuldigung @gung. Ich denke, mein Punkt war, dass die wahrscheinlichste Antwort trotz einiger von den anderen Benutzern vorgelegten Beweise immer noch ist, dass wir ein dezimalbasiertes Nummerierungssystem haben, das auch heute noch verwendet wird, um willkürliche Zahlen für Hypothesentests zu finden zB der von mir erwähnte Staiger- und Stock-F-Test.
EconStats
1
Als Originalplakat dieser Frage ist dies meiner Meinung nach definitiv eine Antwort. Vielen Dank!
Contango
0

Warum 1 und 5? Weil sie sich richtig fühlen.

Ich bin mir sicher, dass es Studien über den emotionalen Wert und den kognitiven Wert bestimmter Zahlen gibt, aber wir können die Wahl von 1 und 5 verstehen, ohne auf Nachforschungen zurückgreifen zu müssen.

Die Menschen, die die heutigen Statistiken erstellt haben, sind in einer dezimalen Welt geboren, aufgewachsen und leben dort. Natürlich gibt es nicht-dezimale Zählsysteme, und das Zählen mit den Phalangen bis zwölf ist möglich und erfolgt, aber es ist nicht so offensichtlich wie mit den Fingern (die daher "Ziffern" genannt werden, wie die Zahlen) ). Und während Sie (und Fisher) vielleicht über nicht-dezimale Zählsysteme Bescheid wissen, war und ist das Dezimalsystem in den letzten hundert Jahren das vorherrschende Zählsystem in Ihrer (und Fischers Welt).

Aber warum sind die Zahlen fünf und eins besonders? Denn beide sind die auffälligsten Unterteilungen der grundlegenden Zehn: ein Finger, eine Hand (oder: eine Hälfte).

Sie müssen nicht einmal so weit gehen, Brüche zu konzipieren, um von zehn auf eins und fünf zu kommen. Der eine ist einfach da, so wie dein Finger einfach da ist. Und etwas zu halbieren ist eine Operation, die viel einfacher ist, als es in ein anderes Verhältnis zu unterteilen. Alles in zwei Teile zu schneiden erfordert kein Nachdenken, während das Teilen durch drei oder vier bereits ziemlich kompliziert ist.

Die meisten Währungssysteme haben Münzen und Banknoten mit Werten wie 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Einige Währungssysteme haben keine 2, 20 und 200, aber fast alle haben diese Anfänge in 1 und 5. Gleichzeitig haben die meisten Währungssysteme keine Münze oder Banknote, die in 3, 4, 6, 7, 8 oder 9 beginnt. Interessant, nicht wahr? Aber warum ist das so?

Weil Sie immer entweder zehn der Einsen oder zwei der Fünfsen (oder fünf der Zweisen) benötigen, um zur nächsten größeren Bestellung zu gelangen. Mit Geld rechnen ist ganz einfach: mal zehn oder doppelt. Nur zwei Arten von Operationen. Jede Münze, die Sie haben, ist entweder die Hälfte oder ein Zehntel der nächsten Bestellmünze. Diese Zahlen multiplizieren sich und addieren sich leicht und gut.

So sind die Zahlen 1 und 5 von frühester Kindheit an tief in Fisher verwurzelt und wer auch immer sonst die Signifikanzstufen als die einfachsten, einfachsten und grundlegendsten Unterteilungen von 10 gewählt hat. Jede andere Zahl braucht ein Argument dafür, während diese Zahlen sind einfach da.

Mangels einer objektiven Methode zur Berechnung des geeigneten Signifikanzniveaus für jeden einzelnen Datensatz fühlen sich die Eins und Fünf einfach richtig an.


quelle
"Ohne auf Forschung zurückgreifen zu müssen." Ich finde die Antwort zwar gut, aber sie liegt fest im Meinungsgebiet. Es würde viel Glaubwürdigkeit verleihen und die Antwort maßgeblicher machen, wenn es Quellen dafür gäbe.
Momo