Vergleichen und Gegenüberstellen von p-Werten, Signifikanzniveaus und Typ-I-Fehlern

21

Ich habe mich gefragt, ob irgendjemand einen genauen Überblick über die Definitionen und Verwendungen von p-Werten, Signifikanzniveau und Typ-I-Fehler geben kann.

Ich verstehe, dass p-Werte definiert sind als "die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie die, die wir tatsächlich beobachtet haben", während ein Signifikanzniveau nur ein willkürlicher Grenzwert ist, um festzustellen, ob der p-Wert signifikant ist oder nicht . Der Fehler vom Typ I ist der Fehler, dass eine Nullhypothese zurückgewiesen wurde, die wahr war. Ich bin mir jedoch nicht sicher, ob es einen Unterschied zwischen dem Signifikanzniveau und dem Fehler vom Typ I gibt. Sind sie nicht dasselbe?

Nehmen wir zum Beispiel ein sehr einfaches Experiment an, bei dem ich eine Münze 1000 Mal umlege und zähle, wie oft sie auf "Köpfen" landet. Meine Nullhypothese, H0, ist, dass Köpfe = 500 (unbefangene Münze) sind. Ich setze dann mein Signifikanzniveau auf Alpha = 0,05.

Ich werfe die Münze 1000 Mal und berechne dann den p-Wert. Wenn der p-Wert> 0,05 ist, kann ich die Nullhypothese nicht ablehnen. Wenn der p-Wert <0,05 ist, lehne ich die Nullhypothese ab.

Wenn ich dieses Experiment wiederholt durchführen würde, jedes Mal, wenn ich den p-Wert berechne und entweder die Nullhypothese ablehne oder nicht ablehne und zähle, wie viele ich abgelehnt habe / nicht abgelehnt habe, würde ich am Ende 5% der Nullhypothesen ablehnen Welche waren in Wirklichkeit wahr, ist das richtig? Dies ist die Definition von Typ-I-Fehler. Daher ist das Signifikanzniveau beim Fisher-Signifikanztest im Wesentlichen der Typ-I-Fehler aus dem Neyman-Pearson-Hypothesentest, wenn Sie wiederholte Experimente durchgeführt haben.

Was nun die p-Werte betrifft, wenn ich aus meinem letzten Experiment einen p-Wert von 0,06 erhalten hätte und mehrere Experimente durchgeführt und alle diejenigen gezählt hätte, für die ich einen p-Wert von 0 bis 0,06 erhalten hätte, hätte ich auch keinen 6% Wahrscheinlichkeit, eine echte Nullhypothese abzulehnen?

BYS2
quelle

Antworten:

16

Die Frage sieht einfach aus, aber Ihr Nachdenken zeigt, dass es nicht so einfach ist.

Tatsächlich sind p-Werte eine relativ späte Ergänzung der Statistiktheorie. Das Berechnen eines p-Werts ohne Computer ist sehr mühsam. Aus diesem Grund war die einzige Möglichkeit, bis vor kurzem einen statistischen Test durchzuführen, die Verwendung von Tabellen mit statistischen Tests, wie ich in diesem Blogbeitrag erläutere . Da diese Tabellen für feste Werte (normalerweise 0,05, 0,01 und 0,001) berechnet wurden , konnten Sie nur mit diesen Werten einen Test durchführen.α

Computer haben diese Tabellen unbrauchbar gemacht, aber die Logik des Testens ist immer noch dieselbe. Du solltest:

  1. Formulieren Sie eine Nullhypothese.
  2. Formulieren Sie eine alternative Hypothese.
  3. Bestimmen Sie einen Fehler vom Typ I (die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise verworfen wird), den Sie akzeptieren möchten.
  4. Entwerfen Sie einen Ablehnungsbereich. Die Wahrscheinlichkeit, dass die Teststatistik in den Ablehnungsbereich fällt, wenn die Nullhypothese Ihr Level . Wie @ MånsT erklärt, sollte dies nicht kleiner sein als Ihr akzeptabler Typ-I-Fehler, und in vielen Fällen sollten Sie asymptotische Approximationen verwenden.α
  5. Führen Sie das Zufallsexperiment durch, berechnen Sie die Teststatistik und prüfen Sie, ob sie in den Ablehnungsbereich fällt.

Theoretisch gibt es eine strikte Äquivalenz zwischen den Ereignissen "Die Statistik fällt in den Ablehnungsbereich" und "Der p-Wert ist kleiner als "α , weshalb der Eindruck besteht, dass Sie stattdessen den p-Wert angeben können . In der Praxis können Sie Schritt 3 überspringen und den Fehler vom Typ I nach Abschluss des Tests bewerten .

Um auf Ihren Beitrag zurückzukommen, ist die Angabe der Nullhypothese falsch. Die Nullhypothese besagt, dass die Wahrscheinlichkeit, einen Kopf umzudrehen, beträgt (die Nullhypothese kann sich nicht auf die Ergebnisse des Zufallsexperiments beziehen).1/2

Wenn Sie das Experiment immer wieder mit einem p-Schwellenwert von 0,05 wiederholen, sollten Sie eine Ablehnung von ungefähr 5% haben. Und wenn Sie einen p-Wert-Grenzwert von 0,06 einstellen, sollten Sie ungefähr 6% Ausschuss erhalten. Im Allgemeinen gilt für kontinuierliche Tests die Definition des p-Wertsp

Prob(p<x)=x,(0<x<1),

Dies gilt nur annähernd für diskrete Tests.

Hier ist ein R-Code, von dem ich hoffe, dass er dies ein wenig klarer macht. Der Binomialtest ist relativ langsam, so dass ich nur 10.000 zufällige Experimente durchführe, bei denen ich 1000 Münzen umwerfe. Ich führe einen Binomialtest durch und sammle die 10.000 p-Werte.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Sie können sehen, dass die Proportionen nicht genau sind, da die Stichprobengröße nicht unendlich ist und der Test diskret ist, aber es gibt immer noch eine Zunahme von ungefähr 1% zwischen den beiden.

gui11aume
quelle
@ MånsT Danke! +1 an Sie für die Unterscheidung zwischen kontinuierlichen und diskreten Tests (die ich ehrlich gesagt völlig übersehen hätte).
gui11aume
4
@ gui11aume, danke für deine Eingabe! Ihre Aussage "p-Werte sind eine relativ späte Ergänzung der Statistiktheorie" ist jedoch seltsam. Nach dem, was ich gelesen habe, entstand Fischers 'Signifikanztest' mit p-Werten um 1925. Während der 'Hypothesentest' von Neyman-Pearson einige Jahre später eine 'Verbesserung' der Arbeit von Fisher darstellte. Zwar waren p-Werte schwierig zu berechnen (daher wurden Standard-Signifikanzniveaus verwendet), aber seine Arbeit war monumental. Tatsächlich wird er als "Vater der Statistik" bezeichnet, da er die Grundlage vieler moderner Statistiken bildete.
BYS2
2
@ BYS2 Absolut richtig (+1). Die Theorie der p-Werte geht auf den Ursprung der Statistik zurück. Es ist ihre allgegenwärtige Verwendung, die neu ist. Danke, dass
du es
@guillaume danke dafür, ich habe aber noch eine kurze Frage. Sie sagen, dass meine Nullhypothese nicht H 0 = 500 sein kann, aber ich habe anscheinend zahlreiche Texte verwendet, zum Beispiel: Die Hypothese lautet, dass der Mittelwert 0 ist oder der Unterschied in den Mitteln 10 ist. Ich hatte nie Probleme so macht man das: s .. Die t-Verteilung skaliert im Wesentlichen nur, wenn ich H0 = 500 anstelle von H0 = 0,5 verwende
BYS2
1
@ gui11aume: Vielleicht könnte es interessant sein, meine Antwort zu lesen
15

Sie erhalten hier gute Antworten von @MansT & @ gui11aume (jeweils +1). Lassen Sie mich sehen, ob ich in beiden Antworten etwas expliziter herausfinden kann.

Beim Arbeiten mit diskreten Daten sind nur bestimmte p-Werte möglich, und das Problem ist schlimmer mit weniger Möglichkeiten / kleineren Datensätzen. Stellen Sie sich zum Beispiel vor, Sie würden mal eine Münze . Die Wahrscheinlichkeit, eine bestimmte Anzahl von Köpfen , ist: Nehmen wir an, ein Forscher möchte's eine gegebene Münze (die eigentlich zu testen ist fair) für Fairness durch 10fache und Aufzeichnen der Anzahl der Köpfe Spiegel. Das heißt, die Nullhypothese ist hier wahr. Unser Forscher setztk p ( k ) = n !nkα=0,05

p(k)=n!k!(nk)!pk(1p)nk
α=.05Konventionell und weil das notwendig ist, um von der größeren Community akzeptiert zu werden. Lassen Sie uns nun das konventionelle Alpha für einen Moment ignorieren und die 2-tailed p-Werte (Typ I Fehlerraten) betrachten, die in dieser Situation möglich sind:
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

Dies zeigt, dass die Verwendung von langfristig zu einer Fehlerrate von Typ I mit zwei . Dies ist also eindeutig ein Fall, in dem . Wenn jedoch auf einen der obigen Werte ( anstelle von ) gesetzt würde, würde das Signifikanzniveau der Typ I-Fehlerrate entsprechen. Trotz dieses Problems ist der p-Wert hat die Typen - I - Fehlerrate in diesem Fall gleich. Beachten Sie, dass es hier kein Problem mit einer Nichtübereinstimmung zwischen einer diskreten Inferenzstatistik und einer kontinuierlichen Referenzverteilung gibt, da ich die exakte verwendet habe.021 α & ne; Typ - I - Fehler & alpha; .05α=.05.021αtype I errorα.05Binomialwahrscheinlichkeiten. Beachten Sie weiterhin, dass Situationen wie diese die Entwicklung des mittleren p-Werts veranlasst haben , um die Diskrepanz zwischen dem p-Wert und dem Signifikanzniveau zu minimieren.

Es kann Fälle geben, in denen der berechnete p-Wert nicht der langfristigen Fehlerrate des Typs I entspricht, zusätzlich zu der Tatsache, dass die Fehlerrate des Typs I nicht unbedingt dem Signifikanzniveau entspricht. Betrachten Sie eine 2x2-Kontingenztabelle mit diesen beobachteten Zählungen:

     col1 col2
row1   2    4   
row2   4    2

Wie soll ich nun den p-Wert für die Unabhängigkeit der Zeilen und Spalten berechnen? Es gibt viele Optionen (die ich hier diskutiere ). Ich beginne damit, die Statistik zu berechnen und sie mit ihrer Referenzverteilung zu vergleichen. das ergibt . Die Referenzverteilung ist jedoch stetig und daher nur eine Annäherung an das Verhalten dieser bestimmten (diskreten) Statistik. Wir können den genauen Test von Fisher verwenden, um die wahre Fehlerrate des Typs I zu bestimmen. dann bekomme ichχ2 χ 2 χ 2 p=0,56710,56370,5671χ12=1.3,p=.248χ2χ2p=.5671. Wenn der p-Wert auf diese Weise berechnet wird, entspricht er der Fehlerrate vom Typ I, obwohl wir immer noch die Frage haben, ob einer der möglichen p-Werte genau 5% beträgt. Lassen Sie mich zugeben, dass ich ein wenig geschummelt habe, wenn ich die Yates-Korrektur für die Kontinuität verwendet hätte, hätte ich eine bessere Annäherung an die wahre Typ-I-Fehlerrate erhalten, aber es wäre immer noch nicht ganz richtig gewesen ( ). .5637.5671

Hier geht es also darum, dass mit diskreten Daten:

  • Ihr bevorzugtes Signifikanzniveau ist möglicherweise nicht eine der möglichen Typ-I-Fehlerraten.
  • Die Verwendung (herkömmlicher) Annäherungen an kontinuierliche Statistiken führt zu ungenauen berechneten p-Werten.

Diese Probleme verschärfen sich, je kleiner Ihr . Soweit ich weiß, gibt es diese Probleme bei kontinuierlichen Daten nicht. N

(Obwohl die Frage nicht nach Lösungen für diese Probleme fragt), gibt es Dinge, die diese Probleme mindern:

  • Größeres bedeutet mehr mögliche Werte, was die Dinge stetiger macht. N
  • Es gibt oft Korrekturen (wie die Yates-Korrektur für die Kontinuität), die berechnete Werte näher an die korrekten Werte bringen.
  • Exakte Tests (wenn möglich, dh wenn klein genug ist) ergeben korrekte p-Werte N
  • Der mittlere p-Wert bietet die Möglichkeit, die Fehlerrate von Typ I näher an das von Ihnen gewählte Konfidenzniveau heranzuführen.
  • Sie können explizit eine der vorhandenen Fehlerraten des Typs I verwenden (oder notieren, was dies sein würde).
gung - Wiedereinsetzung von Monica
quelle
Schön, dass du auf das Detail eingegangen bist, das wir auf der Seite gelassen haben (+1).
gui11aume
@gung - könntest du kommentieren, wie du die Typ-I-Fehlerraten für die erste Tabelle hast?
stats134711
@ stats134711, es ist nur die Summe der einzelnen Wahrscheinlichkeiten für die Optionen, die als extrem oder extremer (2-tailed) sind.
gung - Reinstate Monica
14

Die Konzepte sind in der Tat eng miteinander verbunden.

P(type I error)=ααP(type I error)ααP(type I error)αα

Der p-Wert ist das niedrigste Signifikanzniveau, bei dem die Nullhypothese akzeptiert würde . So sagt es uns, "wie bedeutend" das Ergebnis ist.

MånsT
quelle