Abgesehen von einigen praktischen Fragen (wie zum Beispiel dem Ausmaß, in dem willkürlich ist), machen die Definitionen des Signifikanzniveaus und des p-Werts die Antwort auf diese Frage eindeutig.α
Das heißt, formal ist die Ablehnungsregel, dass Sie ablehnen, wenn .p=α
Es sollte eigentlich nur für den Einzelfall von Bedeutung sein, aber wenn Sie in dieser Situation nicht ablehnen, wenn , wird Ihre Typ-I-Fehlerrate nicht tatsächlich α sein !p=αα
(Meines Erachtens gibt es kein "maßgebliches" Zitat. Man muss sich sowohl mit den Neyman-Pearson- als auch mit den Fisherian-Ansätzen zum Testen von Hypothesen auseinandersetzen, und diese haben sich im Laufe der Zeit entwickelt.)
Es gibt beliebig viele gute statistische Texte, die Hypothesentests korrekt beschreiben.
Die Definition des p-Wertes ist im ersten Satz des entsprechenden Wikipedia-Artikels korrekt wiedergegeben *:
Der p-Wert ist die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie die tatsächlich beobachtete, unter der Annahme, dass die Nullhypothese wahr ist.
* (und nein, Wikipedia ist keine Autorität, ich sage nur, dass die Definition richtig ist)
Bleiben wir der Einfachheit halber bei Punktnullen; es dient dazu, den Punkt zu vermitteln, ohne das Wasser mit zusätzlichen Problemen zu verwirren.
Nun ist das Signifikanzniveau ; die ausgewählte Fehlerrate vom Typ I. Dies ist die Rate, für die Sie die Nullhypothese auswählen, die zurückgewiesen werden soll, wenn sie wahr ist. Das heißt, es ist der Anteil der Zeit, in der Sie die Null ablehnen sollten. Betrachten wir nun eine Teststatistik mit einer diskreten Verteilung - das einzige Mal, dass ein p von genau α tatsächlich möglich ist **. (In der Regel unterscheidet sich das tatsächliche Alpha auch von etwas Schönem und Rundem wie 5%.)αp α
** Nun, ich schätze, ich beschränke meine Diskussion nur auf rein diskrete oder rein kontinuierlich verteilte Teststatistiken. Im gemischten Fall können Sie herausfinden, wie meine diskrete Diskussion zutrifft (in den Situationen, in denen sie zutrifft).
n=17α=4.904%137500217
H0p=αα
H0p=αα
p=α
p=α
Wenn Sie Ihre Ablehnungsregel im Vorfeld beschreiben und nachweisen, dass sie (sofern die Annahmen erfüllt sind) das gewünschte Signifikanzniveau hat, sind wahrscheinlich keine Referenzen erforderlich.
H0
α
(Wenn Sie eine andere Ausgabe haben, können sich die Seitenzahlen ändern, sie haben jedoch einen Index, sodass Sie nach Begriffen suchen können. Achten Sie darauf, dass Sie die Auflistungen unter "Hypothesentests" oder etwas Ähnliches im Index durchsehen müssen, um sie zu finden 'Ablehnungsbereich')
Hmm, lass uns ein anderes Buch von der Stange probieren. Wackerly, Mendenhall & Scheaffer Mathematical Statistics with Applications, 5. Auflage , definiert einen Ablehnungsbereich auf p412 und einen p-Wert (gleiches Def wie C & B) auf p431.
Ein interessantes Geständnis, das ich in meiner frühen Biostatistikklasse von einem Professor gelernt hatte, ist, dass das Signifikanzniveau von 0,05 eher durch einen Konsens als durch eine goldene Wahrheit erreicht wurde. Seitdem habe ich Literatur gesehen, die mit dem 0,05-Signifikanzniveau flirtet, wie "Annäherung", um immer noch ein auffälliges Ergebnis der Studie zu sein, und ich habe Argumente gehört, dass das 0,05-Signifikanzniveau möglicherweise nicht für alle Forschungsbereiche gilt. Vor diesem Hintergrund habe ich festgestellt, dass Punktschätzungen und Konfidenzintervalle informativer sind als Signifikanzniveaus. Hier ist ein interessanter Artikel zu diesem Thema (für mich jedenfalls).
quelle
Der Wert von p wird normalerweise aus Konsensgründen festgelegt, wie zuvor gesagt (oder eher Faulheit). Um wirklich sagen zu können, dass etwas von Bedeutung ist, müssen wir den Wert von p ermitteln, der der Effektgröße, der Stichprobengröße und der gewünschten Stringenz für Ihre Daten entspricht. Dies wird als Leistungsanalyse bezeichnet (es ist ein Unterfeld innerhalb der Statistik). Viele Leute sind sich dessen entweder nicht bewusst oder verwenden es einfach nicht, weil es nicht einfach ist. Das soll nicht heißen, dass es in Ordnung ist. Wir sollten diese Art von Studie immer durchführen, um Schlussfolgerungen zu ziehen, die wirklich bedeutsam sind.
quelle