Begründung eines einseitigen Hypothesentests

35

Ich verstehe zweiseitige Hypothesentests. Sie haben H0:θ=θ0 (vs. ). Der Wert ist die Wahrscheinlichkeit, dass Daten erzeugt, die mindestens so extrem sind wie die beobachteten. p θH1=¬H0:θθ0pθ

Ich verstehe keine einseitigen Hypothesentests. Hier ist (vs. ). Die Definition des p-Wertes sollte sich nicht von oben geändert haben: Es sollte immer noch die Wahrscheinlichkeit bestehen, dass Daten erzeugt, die mindestens so extrem sind wie die beobachteten. Aber wir nicht wissen , \ theta , nur , dass es oben begrenzt durch \ theta_0 .H 1 = ¬ H 0 : θ > θ 0 θH0:θθ0H1=¬H0:θ>θ0θ θ 0θθ0

Stattdessen sehe ich Texte, die uns sagen, dass wir annehmen sollen, dass (nicht \ theta \ le \ theta_0 gemäß H_0 ), und die Wahrscheinlichkeit berechnen, dass dies Daten erzeugt, die mindestens so extrem sind wie das, was beobachtet wurde, aber nur an einem Ende . Dies scheint technisch nichts mit den Hypothesen zu tun zu haben.θ=θ0θθ0H0

Ich verstehe jetzt, dass dies eine Prüfung der Frequentistenhypothese ist und dass Frequentisten keine Prioritäten auf ihre θ . Aber sollte das nicht einfach bedeuten, dass die Hypothesen dann nicht akzeptiert oder abgelehnt werden können, anstatt die obige Berechnung ins Bild zu setzen?

Yang
quelle
Eine ähnliche Frage wurde danach gestellt: stats.stackexchange.com/questions/8196/…
robin girard
1
Ihre Definition des Wertes ist unvollständig. Es sollte lauten (Hervorhebung hinzugefügt): Der Wert ist die Wahrscheinlichkeit, dass Daten erzeugt, die mindestens so extrem sind wie das, was beobachtet wurde, vorausgesetzt, die Nullhypothese ist wahr . ppθ
Alexis

Antworten:

34

Das ist eine nachdenkliche Frage. Viele Texte (vielleicht aus pädagogischen Gründen) behandeln dieses Thema. Was wirklich los ist, ist, dass eine zusammengesetzte "Hypothese" in Ihrer einseitigen Situation ist: Es ist tatsächlich eine Reihe von Hypothesen, keine einzige. Dies ist für jede mögliche Hypothese in H 0 erforderlichH0 H0muss die Wahrscheinlichkeit, dass die Teststatistik in den kritischen Bereich fällt, kleiner oder gleich der Testgröße sein. Wenn der Test tatsächlich seine Nenngröße erreichen soll (was eine gute Sache für das Erreichen einer hohen Leistung ist), dann sollte die Summe dieser Chancen (unter Berücksichtigung aller Nullhypothesen) gleich der Nenngröße sein. In der Praxis wird für einfache Ein-Parameter-Standorttests mit bestimmten "netten" Verteilungsfamilien dieses Supremum für die Hypothese mit Parameter . Aus praktischen Gründen konzentriert sich jede Berechnung auf diese eine Verteilung. Aber wir dürfen den Rest der Menge H 0 nicht vergessenθ0H0: das ist eine entscheidende Unterscheidung zwischen zweiseitigen und einseitigen Tests (und zwischen "einfachen" und "zusammengesetzten" Tests im Allgemeinen).

Dies beeinflusst auf subtile Weise die Interpretation der Ergebnisse einseitiger Tests. Wenn die Null zurückgewiesen wird, können wir sagen, dass die Beweise gegen den wahren Naturzustand einer der Verteilungen in . Wenn die Null nicht verworfen wird, können wir nur sagen, dass es eine Verteilung in H 0 gibt, die mit den beobachteten Daten "konsistent" ist. Wir sagen nicht , dass alle Verteilungen in H 0 mit den Daten übereinstimmen: weit davon entfernt! Viele von ihnen können extrem niedrige Wahrscheinlichkeiten ergeben.H0H0H0

whuber
quelle
Alles, was Sie gesagt haben, ist gültig und wichtig. Ein weiterer wichtiger Aspekt ist meiner Meinung nach, dass die Nullhypothese normalerweise als uninteressante Hypothese angesehen wird. Die Alternative wird als wissenschaftliche Hypothese angesehen. Es ist das, was der Experimentator beweisen möchte. Ich sage normalerweise, weil es sich in Äquivalenz- und Nicht-Minderwertigkeitstests unterscheidet. Was nun das einseitige Testen betrifft, so ist nur die Seite mit einem Parameter größer als der Nullwert von Interesse. Alle Werte auf der Seite kleiner als werden in die Null übernommen.
Michael R. Chernick
stats.stackexchange.com/questions/333301/… Wenn Sie auf diese Frage eine Antwort geben oder mich auf eine Bibliographie verweisen möchten ...;)
Ein alter Mann im Meer.
6

Ich sehe den Wert als die maximale Wahrscheinlichkeit eines Fehlers vom Typ I. Wenn & thgr; & thgr ; 0 ist , kann die Wahrscheinlichkeit einer Fehlerrate vom Typ I effektiv Null sein, aber so ist es auch. Wenn man den Test aus einer Minimax-Perspektive betrachtet, würde ein Gegner sowieso niemals aus dem Inneren der Nullhypothese schöpfen, und die Macht sollte nicht beeinträchtigt werden. Für einfache Situationen ( zum Beispiel den t- Test) ist es möglich, einen Test mit einer garantierten maximalen Typ-I-Rate zu konstruieren, der solche einseitigen Nullhypothesen zulässt.pθθ0t

shabbychef
quelle
2

Sie würden einen einseitigen Hypothesentest verwenden, wenn nur Ergebnisse in eine Richtung die Schlussfolgerung stützen, zu der Sie gelangen möchten.

Denken Sie an diese Frage, die Sie stellen. Angenommen, Sie möchten beispielsweise feststellen, ob Fettleibigkeit zu einem erhöhten Risiko für einen Herzinfarkt führt. Sie sammeln Ihre Daten, die aus 10 übergewichtigen und 10 nicht übergewichtigen Personen bestehen können. Nehmen wir nun an, dass Sie aufgrund von nicht aufgezeichneten Störfaktoren, schlechtem experimentellem Design oder einfachem Pech feststellen, dass nur 2 der 10 übergewichtigen Personen einen Herzinfarkt haben, verglichen mit 8 der nicht übergewichtigen Personen.

Wenn Sie nun einen zweiseitigen Hypothesentest für diese Daten durchführen würden, würden Sie den Schluss ziehen, dass ein statistisch signifikanter Zusammenhang (p ~ 0,02) zwischen Fettleibigkeit und Herzinfarktrisiko besteht. Die Assoziation würde jedoch in die entgegengesetzte Richtung verlaufen, wie Sie es eigentlich erwartet hatten, daher wäre das Testergebnis irreführend.

(Im wirklichen Leben könnte ein Experiment, das ein derartig kontraproduktives Ergebnis liefert, zu weiteren Fragen führen, die für sich selbst interessant sind: Beispielsweise muss der Datenerfassungsprozess möglicherweise verbessert werden, oder es gibt bisher unbekannte Risikofaktoren bei der Arbeit, oder Vielleicht ist konventionelle Weisheit einfach falsch, aber diese Fragen hängen nicht wirklich mit der engen Frage zusammen, welche Art von Hypothesentest verwendet werden soll.)

Hong Ooi
quelle
2

pH0H00.5H10.5

H0H00.75H10.25

H1H0H0

Sie können mit diesem Spielzeugbeispiel in R selbst experimentieren, Sie sollten auch verschiedene absolute Zahlen und Kombinationen von Kopf und Zahl ausprobieren:

> binom.test(2,2,alternative="two.sided")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.5
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.1581139 1.0000000
sample estimates:
probability of success 
                     1

> binom.test(2,2,alternative="greater")

    Exact binomial test

data:  2 and 2
number of successes = 2, number of trials = 2, p-value = 0.25
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
 0.2236068 1.0000000
sample estimates:
probability of success 
                     1 
vonjd
quelle