Ich verstehe zweiseitige Hypothesentests. Sie haben (vs. ). Der Wert ist die Wahrscheinlichkeit, dass Daten erzeugt, die mindestens so extrem sind wie die beobachteten. p θ
Ich verstehe keine einseitigen Hypothesentests. Hier ist (vs. ). Die Definition des p-Wertes sollte sich nicht von oben geändert haben: Es sollte immer noch die Wahrscheinlichkeit bestehen, dass Daten erzeugt, die mindestens so extrem sind wie die beobachteten. Aber wir nicht wissen , \ theta , nur , dass es oben begrenzt durch \ theta_0 .H 1 = ¬ H 0 : θ > θ 0 θ θ 0
Stattdessen sehe ich Texte, die uns sagen, dass wir annehmen sollen, dass (nicht \ theta \ le \ theta_0 gemäß H_0 ), und die Wahrscheinlichkeit berechnen, dass dies Daten erzeugt, die mindestens so extrem sind wie das, was beobachtet wurde, aber nur an einem Ende . Dies scheint technisch nichts mit den Hypothesen zu tun zu haben.
Ich verstehe jetzt, dass dies eine Prüfung der Frequentistenhypothese ist und dass Frequentisten keine Prioritäten auf ihre . Aber sollte das nicht einfach bedeuten, dass die Hypothesen dann nicht akzeptiert oder abgelehnt werden können, anstatt die obige Berechnung ins Bild zu setzen?
quelle
Antworten:
Das ist eine nachdenkliche Frage. Viele Texte (vielleicht aus pädagogischen Gründen) behandeln dieses Thema. Was wirklich los ist, ist, dass eine zusammengesetzte "Hypothese" in Ihrer einseitigen Situation ist: Es ist tatsächlich eine Reihe von Hypothesen, keine einzige. Dies ist für jede mögliche Hypothese in H 0 erforderlichH0 H0 muss die Wahrscheinlichkeit, dass die Teststatistik in den kritischen Bereich fällt, kleiner oder gleich der Testgröße sein. Wenn der Test tatsächlich seine Nenngröße erreichen soll (was eine gute Sache für das Erreichen einer hohen Leistung ist), dann sollte die Summe dieser Chancen (unter Berücksichtigung aller Nullhypothesen) gleich der Nenngröße sein. In der Praxis wird für einfache Ein-Parameter-Standorttests mit bestimmten "netten" Verteilungsfamilien dieses Supremum für die Hypothese mit Parameter . Aus praktischen Gründen konzentriert sich jede Berechnung auf diese eine Verteilung. Aber wir dürfen den Rest der Menge H 0 nicht vergessenθ0 H0 : das ist eine entscheidende Unterscheidung zwischen zweiseitigen und einseitigen Tests (und zwischen "einfachen" und "zusammengesetzten" Tests im Allgemeinen).
Dies beeinflusst auf subtile Weise die Interpretation der Ergebnisse einseitiger Tests. Wenn die Null zurückgewiesen wird, können wir sagen, dass die Beweise gegen den wahren Naturzustand einer der Verteilungen in . Wenn die Null nicht verworfen wird, können wir nur sagen, dass es eine Verteilung in H 0 gibt, die mit den beobachteten Daten "konsistent" ist. Wir sagen nicht , dass alle Verteilungen in H 0 mit den Daten übereinstimmen: weit davon entfernt! Viele von ihnen können extrem niedrige Wahrscheinlichkeiten ergeben.H0 H0 H0
quelle
Ich sehe den Wert als die maximale Wahrscheinlichkeit eines Fehlers vom Typ I. Wenn & thgr; ≤ & thgr ; 0 ist , kann die Wahrscheinlichkeit einer Fehlerrate vom Typ I effektiv Null sein, aber so ist es auch. Wenn man den Test aus einer Minimax-Perspektive betrachtet, würde ein Gegner sowieso niemals aus dem Inneren der Nullhypothese schöpfen, und die Macht sollte nicht beeinträchtigt werden. Für einfache Situationen ( zum Beispiel den t- Test) ist es möglich, einen Test mit einer garantierten maximalen Typ-I-Rate zu konstruieren, der solche einseitigen Nullhypothesen zulässt.p θ≪θ0 t
quelle
Sie würden einen einseitigen Hypothesentest verwenden, wenn nur Ergebnisse in eine Richtung die Schlussfolgerung stützen, zu der Sie gelangen möchten.
Denken Sie an diese Frage, die Sie stellen. Angenommen, Sie möchten beispielsweise feststellen, ob Fettleibigkeit zu einem erhöhten Risiko für einen Herzinfarkt führt. Sie sammeln Ihre Daten, die aus 10 übergewichtigen und 10 nicht übergewichtigen Personen bestehen können. Nehmen wir nun an, dass Sie aufgrund von nicht aufgezeichneten Störfaktoren, schlechtem experimentellem Design oder einfachem Pech feststellen, dass nur 2 der 10 übergewichtigen Personen einen Herzinfarkt haben, verglichen mit 8 der nicht übergewichtigen Personen.
Wenn Sie nun einen zweiseitigen Hypothesentest für diese Daten durchführen würden, würden Sie den Schluss ziehen, dass ein statistisch signifikanter Zusammenhang (p ~ 0,02) zwischen Fettleibigkeit und Herzinfarktrisiko besteht. Die Assoziation würde jedoch in die entgegengesetzte Richtung verlaufen, wie Sie es eigentlich erwartet hatten, daher wäre das Testergebnis irreführend.
(Im wirklichen Leben könnte ein Experiment, das ein derartig kontraproduktives Ergebnis liefert, zu weiteren Fragen führen, die für sich selbst interessant sind: Beispielsweise muss der Datenerfassungsprozess möglicherweise verbessert werden, oder es gibt bisher unbekannte Risikofaktoren bei der Arbeit, oder Vielleicht ist konventionelle Weisheit einfach falsch, aber diese Fragen hängen nicht wirklich mit der engen Frage zusammen, welche Art von Hypothesentest verwendet werden soll.)
quelle
Sie können mit diesem Spielzeugbeispiel in R selbst experimentieren, Sie sollten auch verschiedene absolute Zahlen und Kombinationen von Kopf und Zahl ausprobieren:
quelle