Wenn die Verteilung der Teststatistik bimodal ist, hat der p-Wert dann eine Bedeutung?

Der P-Wert ist definiert als die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie das, was beobachtet wird, vorausgesetzt, die Nullhypothese ist wahr. Mit anderen Worten,

Aber was ist, wenn die Teststatistik in der Verteilung bimodal ist? Bedeutet p-Wert in diesem Zusammenhang etwas? Zum Beispiel werde ich einige bimodale Daten in R simulieren:

P (X \geq t | H_{0})

$P( X \ge t | H_0 )$

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

Bildbeschreibung hier eingeben

Nehmen wir an, wir beobachten einen statistischen Testwert von 60. Und hier wissen wir aus dem Bild, dass dieser Wert sehr unwahrscheinlich ist . Im Idealfall würde ich eine statistische Prozedur wünschen, die ich verwende (sagen wir p-Wert), um dies aufzudecken. Aber wenn wir den definierten p-Wert berechnen, erhalten wir einen ziemlich hohen p-Wert

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Wenn ich die Verteilung nicht wüsste, würde ich schließen, dass das, was ich beobachtete, einfach zufällig ist. Aber wir wissen, dass das nicht stimmt.

Ich schätze, die Frage, die ich habe, lautet: Warum berechnen wir bei der Berechnung des p-Werts die Wahrscheinlichkeit für die Werte, die mindestens so extrem sind wie die beobachteten? Und wenn ich auf eine Situation stoße, wie ich sie oben simuliert habe, was ist die alternative Lösung?

hypothesis-testing statistical-significance p-value descriptive-statistics bimodal Alby
quelle

Willkommen in der wundervollen Welt des Nullhypothese-Signifikanztests! Im Ernst: Ich kann mir ehrlich gesagt keine Teststatistik vorstellen, die eine bimodale Verteilung unter der Nullhypothese aufweist (die uns in NHST am Herzen liegt). Also +1 für eine interessante Frage, aber ich bezweifle irgendwie ihre praktische Relevanz ... es sei denn, Sie haben ein bestimmtes Beispiel im Sinn?

Stephan Kolassa

Ich bin mit @StephanKolassa einverstanden. Es gibt sicherlich Verteilungen von Daten , die bimodal sind, aber welche Art von Teststatistik ist das?

Peter Flom - Wiedereinsetzung von Monica

Ich würde der Charakterisierung von p-Werten, die durch die erste Formel vorgeschlagen wird, nicht zustimmen. Der richtige Sinn von "mindestens so extrem" in der Neyman-Pearson-Theorie ist in Bezug auf die relative Wahrscheinlichkeit und nicht in Bezug auf die übliche Reihenfolge der Realzahlen (wie in der Formel angegeben). Beide sind in vielen Standardtestsituationen gleichwertig, unterscheiden sich jedoch stark, wenn die Stichprobenverteilung bimodal ist. Diese Unterscheidung wird daher die Frage zufriedenstellend lösen, denke ich.

Whuber

@whuber Kannst du das bitte etwas näher erläutern, vielleicht mit einem einfachen Beispiel?

Szabolcs

G_{θ}

$G_\theta$

(θ, θ)

$(\theta,\theta)$

θ \geq 1

$\theta\ge 1$

F_{θ} (x)

$F_\theta(x)$

G_{θ} (x)

$G_\theta(x)$

G_{θ} (- x)

$G_\theta(-x)$

x \in [- 1, 1]

$x \in [-1,1]$

F_{1}

$F_1$

F_{2}

$F_2$

\pm 1 / 2

$\pm 1/2$

X \sim F_{θ}

$X\sim F_\theta$

H_{0} : X \sim F_{1}

$H_0: X\sim F_1$

H_{A} : X \sim F_{2}

$H_A: X\sim F_2$

\pm 1

$\pm 1$

1 / 2

$1/2$

- 1 / 2

$-1/2$

θ = 2

$\theta=2$

Antworten:

Was eine Teststatistik "extrem" macht, hängt von Ihrer Alternative ab, die dem Probenraum eine Reihenfolge (oder zumindest eine Teilreihenfolge) auferlegt. Sie möchten die Fälle ablehnen, die (im Sinne einer Teststatistik) am konsistentesten sind die Alternative.

Wenn Sie nicht wirklich haben eine Alternative , um Ihnen einen etwas beständigsten zu sein mit, sind Sie mit der Wahrscheinlichkeit , im Wesentlichen links die Bestellung zu geben, am häufigsten in Fishers Exact Test gesehen. Dort ordnet die Wahrscheinlichkeit der Ergebnisse (die 2x2-Tabellen) unter der Null die Teststatistik an (so dass 'extrem' 'geringe Wahrscheinlichkeit' ist).

Wenn Sie sich in einer Situation befunden haben, in der die ganz linke (oder ganz rechte oder beide) Seite Ihrer bimodalen Nullverteilung mit der Art von Alternative zusammenhängt, an der Sie interessiert sind, würden Sie keine Teststatistik von 60 ablehnen Sie in einer Situation, wo man nicht eine Alternative wie die hat, dann 60 ist unsual - es geringe Wahrscheinlichkeit hat; Ein Wert von 60 ist nicht mit Ihrem Modell vereinbar und würde zu einer Ablehnung führen.

[Dies wird von einigen als ein zentraler Unterschied zwischen der Prüfung der Fischer- und der Neyman-Pearson-Hypothese angesehen. Durch eine explizite Alternative zur Einführung und ein Verhältnisses von Wahrscheinlichkeiten, eine geringe Wahrscheinlichkeit unter der Null nicht unbedingt führen , dass Sie in einem Neyman-Pearson Rahmen abzulehnen (solange es relativ gut zu der Alternative im Vergleich führt), während für Fisher, Du hast wirklich keine Alternative und die Wahrscheinlichkeit unter der Null ist das, woran du interessiert bist.]

Ich behaupte nicht, dass ein Ansatz hier richtig oder falsch ist - Sie überlegen selbst, gegen welche Art von Alternativen Sie nach Macht suchen, ob es sich um eine bestimmte Alternative handelt oder nur um irgendetwas, das unter dem Nullpunkt unwahrscheinlich genug ist. Sobald Sie wissen, was Sie wollen, folgt der Rest (einschließlich dessen, was "mindestens so extrem" bedeutet) so ziemlich daraus.

Glen_b - Setzen Sie Monica wieder ein
quelle