Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?

44

Traditionelle statistische Tests wie der Zwei-Stichproben-T-Test konzentrieren sich darauf, die Hypothese zu beseitigen, dass es keinen Unterschied zwischen einer Funktion von zwei unabhängigen Stichproben gibt. Dann wählen wir ein Konfidenzniveau und sagen, dass wir die Nullhypothese ablehnen können, wenn die Differenz der Mittelwerte jenseits des 95% -Niveaus liegt. Wenn nicht, können wir "die Nullhypothese nicht ablehnen". Dies scheint zu implizieren, dass wir es auch nicht akzeptieren können. Bedeutet das, dass wir uns nicht sicher sind, ob die Nullhypothese wahr ist?

Nun möchte ich einen Test entwerfen, bei dem meine Hypothese lautet, dass eine Funktion von zwei Stichproben dieselbe ist (was das Gegenteil von herkömmlichen statistischen Tests ist, bei denen die Hypothese lautet, dass die beiden Stichproben unterschiedlich sind). Meine Nullhypothese lautet also, dass die beiden Stichproben unterschiedlich sind. Wie soll ich einen solchen Test gestalten? Ist es so einfach zu sagen, dass wir die Hypothese akzeptieren können, dass es keinen signifikanten Unterschied gibt, wenn der p-Wert unter 5% liegt?

hypothesis-testing statistical-significance confidence-interval equivalence tost ryu576
quelle

Sehr verwandt: Bedeutet das Versäumnis, die Null im Neyman-Pearson-Ansatz abzulehnen, dass man sie „akzeptieren“ sollte?

Amöbe sagt Reinstate Monica

Differenz der Mittelwerte liegt jenseits des 95% -Niveaus, wir können die Nullhypothese ablehnen. Die 95% sind kein "Niveau", es handelt sich hier in 95 von 100 Fällen (Vergleiche) um Unterschiede in der Stichprobenstatistik aufgrund von Stichprobenschwankungen. es bedeutet, dass null bei alpha = .05 akzeptiert wird. Die Angabe von 95% ist kein korrekter Begriff.

Subhash C. Davar

44

Traditionell ist die Nullhypothese ein Punktwert. (Es ist normalerweise , kann aber tatsächlich ein beliebiger Punktwert sein.) Die alternative Hypothese lautet, dass der wahre Wert ein beliebiger Wert ist, der nicht der Nullwert ist . Da eine stetige Variable (z. B. eine mittlere Differenz) einen Wert annehmen kann, der dem Nullwert unendlich nahe kommt, aber immer noch nicht ganz gleich ist und die Nullhypothese daher falsch macht, kann eine herkömmliche Punktnullhypothese nicht bewiesen werden. $0$

Stellen Sie sich vor, Ihre Nullhypothese ist und der mittlere Unterschied, den Sie beobachten, ist . Ist es vernünftig anzunehmen, dass die Nullhypothese wahr ist? Sie wissen es noch nicht; Es wäre hilfreich zu wissen, wie unser Konfidenzintervall aussieht. Ihr 95% -Konfidenzintervall beträgt . Sollen wir nun folgern, dass der wahre Wert ? Ich würde mich nicht wohl fühlen, wenn ich das sage, weil der CI sehr breit ist und es viele große Werte ungleich Null gibt, von denen wir vermuten könnten, dass sie mit unseren Daten übereinstimmen. Nehmen wir also an, wir sammeln viel, viel mehr Daten, und jetzt beträgt unsere beobachtete mittlere Differenz , aber der 95% -CI beträgt $0$ $0.01$ $(-4.99,\ 5.01)$ $0$ $0.01$ $(0.005,\ 0.015)$ . Die beobachtete mittlere Differenz ist gleich geblieben (was erstaunlich wäre, wenn es wirklich passieren würde), aber das Konfidenzintervall schließt jetzt den Nullwert aus. Natürlich ist dies nur ein Gedankenexperiment, aber es sollte die Grundideen klar machen. Wir können niemals beweisen, dass der wahre Wert ein bestimmter Punktwert ist; Wir können nur (möglicherweise) widerlegen, dass es sich um einen bestimmten Wert handelt. Beim Testen statistischer Hypothesen bedeutet die Tatsache, dass der p-Wert> 0,05 ist (und dass der 95% -KI Null enthält), dass wir nicht sicher sind, ob die Nullhypothese wahr ist .

Für Ihren konkreten Fall können Sie keinen Test erstellen, bei dem die alternative Hypothese lautet, dass die mittlere Differenz und die Nullhypothese nicht Null ist. Dies verstößt gegen die Logik des Hypothesentests. Es ist durchaus vernünftig, dass es sich um Ihre inhaltliche, wissenschaftliche Hypothese handelt, aber es kann nicht Ihre alternative Hypothese in einer Hypothesentestsituation sein. $0$

Also, was kannst du machen? In dieser Situation verwenden Sie Äquivalenztests. (Vielleicht möchten Sie einige unserer Threads zu diesem Thema lesen, indem Sie auf das Äquivalenz- Tag klicken .) Die typische Strategie besteht darin, den zweiseitigen Testansatz zu verwenden. Ganz kurz, Sie wählen ein Intervall aus, in dem Sie davon ausgehen würden, dass die wahre mittlere Differenz auch $0$ Nach allem, was Sie sich wünschen, führen Sie einen einseitigen Test durch, um festzustellen, ob der beobachtete Wert unter der Obergrenze dieses Intervalls liegt, und einen weiteren einseitigen Test, um festzustellen, ob er über der Untergrenze liegt. Wenn beide Tests signifikant sind, haben Sie die Hypothese verworfen, dass der wahre Wert außerhalb des Intervalls liegt, für das Sie sich interessieren. Wenn eine (oder beide) nicht signifikant sind, können Sie die Hypothese, dass der wahre Wert außerhalb des Intervalls liegt, nicht zurückweisen.

Nehmen Sie beispielsweise an, dass alles innerhalb des Intervalls so nahe an Null liegt, dass Sie glauben, dass es für Ihre Zwecke im Wesentlichen mit Null identisch ist, und verwenden Sie dies als Ihre inhaltliche Hypothese. Stellen Sie sich nun vor, Sie erhalten das oben beschriebene erste Ergebnis. Obwohl $(-0.02,\ 0.02)$ $0.01$ In diesem Intervall können Sie die Nullhypothese bei beiden einseitigen t-Tests nicht ablehnen, sodass Sie die Nullhypothese nicht ablehnen können. Stellen Sie sich andererseits vor, Sie hätten das oben beschriebene zweite Ergebnis. Nun stellen Sie fest, dass der beobachtete Wert innerhalb des festgelegten Intervalls liegt und sowohl kleiner als die Obergrenze als auch größer als die Untergrenze ist, sodass Sie die Null verwerfen können. (Es ist erwähnenswert, dass Sie sowohl die Hypothese, dass der wahre Wert , als auch die Hypothese, dass der wahre Wert außerhalb des Intervalls liegt, ablehnen können $0$ $(-0.02,\ 0.02)$ Dies mag zunächst verwirrend erscheinen, entspricht jedoch voll und ganz der Logik des Hypothesentests.)

gung - Wiedereinsetzung von Monica
quelle

1

H_{0}

$H_0$

H_{0}

$H_0$

1

H_{0}

$H_0$

H_{0} : δ \leq 0

$H_0: \delta\le 0$

δ

$\delta$

> 0

$>0$

< 0

$<0$

1

H_{0}

$H_0$

4

δ \neq 0

$\delta \neq 0$

δ \leq 0

$\delta \leq 0$

H_{0} : δ \leq 0

$H_0:\,\delta \leq 0$

1

H_{0} : δ < 0

$H_0:\delta<0$

H_{0} : δ = 0

$H_0:\delta=0$

δ > 0

$\delta>0$

δ < 0

$\delta<0$ kann tatsächlich dazu führen, dass einer von ihnen akzeptiert wird (oder ein nicht schlüssiges Ergebnis). Außerdem ist einseitiges Testen aus Bayes-Sicht sinnvoller. Außerdem sollte die wissenschaftliche Vorhersage eine Richtung haben. Ich denke, ich beginne zu denken, dass einseitiges Testen nicht genug gewürdigt wird.

Amöbe sagt Reinstate Monica

28

Stellen Sie sich den Fall vor, bei dem die Nullhypothese lautet, dass eine Münze 2-köpfig ist, dh die Wahrscheinlichkeit für Köpfe 1 beträgt. Jetzt sind die Daten das Ergebnis eines einzelnen Münzwurfs und des Erfassens von Köpfen. Dies ergibt einen p-Wert von 1,0, der größer ist als jedes vernünftige Alpha. Bedeutet dies, dass die Münze 2-köpfig ist? es könnte sein, aber es könnte auch eine faire Münze sein und wir sahen zufällige Köpfe (würde 50% der Zeit mit einer fairen Münze passieren). Der hohe p-Wert in diesem Fall besagt also, dass die beobachteten Daten perfekt mit der Null übereinstimmen, aber auch mit anderen Möglichkeiten.

Genau wie ein Urteil "Nicht schuldig" vor Gericht bedeuten kann, dass der Angeklagte unschuldig ist, kann es auch sein, dass der Angeklagte schuldig ist, aber es gibt nicht genügend Beweise. Dasselbe gilt für die Nullhypothese, die wir nicht ablehnen, da die Null möglicherweise wahr ist oder wir nicht genügend Beweise haben, um sie abzulehnen, obwohl sie falsch ist.

Greg Snow
quelle

3

Ich mag das Beispiel "Nicht schuldig". Wenn Sie noch einen Schritt weiter gehen und Fälle auf der Grundlage von DNA-Beweisen erneut eröffnen, von denen wir in der Vergangenheit nicht wussten, wie man sie verwendet, und einige Überzeugungen aufheben, ist dies ein perfektes Beispiel dafür, wie das Hinzufügen weiterer Daten alles sein kann, was für ausreichende Beweise erforderlich ist.

Thomas Speidel

7

Das Fehlen von Beweisen ist kein Beweis für eine Abwesenheit (Titel eines Altman-Bland-Papers über BMJ). P-Werte geben nur dann Hinweise auf eine Abwesenheit, wenn wir sie für signifikant halten. Ansonsten erzählen sie uns nichts. Daher keine Beweise. Mit anderen Worten: Wir wissen es nicht und weitere Daten könnten helfen.

Thomas Speidel
quelle

5

$H_0$

$H_1$ $H_0$

$H_0$

Wenn wir zwei Stichproben haben, von denen wir erwarten, dass sie identisch verteilt sind, ist unsere Nullhypothese, dass die Stichproben identisch sind. Wenn wir zwei Stichproben haben, von denen wir erwarten würden, dass sie (wild) unterschiedlich sind, lautet unsere Nullhypothese, dass sie unterschiedlich sind.

SomeEE
quelle

Und was ist, wenn wir keine Erwartungen haben? Vielleicht wissen wir es einfach nicht. Wie funktioniert die Entscheidungsregel, wenn wir die Hypothese ablehnen möchten, dass die beiden Stichproben unterschiedlich sind?

Ryu576

Wenn Sie keine Erwartungen haben, möchten Sie beide Arten von Fehlern klein halten, aber dies ist nicht immer möglich. Dazu benötigen Sie eine zusätzliche Variable (z. B. eine größere Stichprobe).

SomeEE

2

Da wir die Null ablehnen können, aber nicht beweisen, dass sie wahr ist, ist die Null normalerweise das Gegenteil von dem, was wir beweisen oder als wahr annehmen wollen. Wenn wir glauben, dass es einen Unterschied gibt, sollte der Nullwert kein Unterschied sein, so dass Sie dies widerlegen können.

Greg Snow

@ Greg Das ist ein guter Ansatz, wenn Sie wissen, welche Sie wahr sein möchten, was wahrscheinlich der Normalfall ist.

SomeEE

1

"Was Sie erwarten" und "dass sie unterschiedlich sind" können keine statistischen Hypothesen sein, da sie nicht quantitativ sind. Das bringt den Kern der Sache auf den Punkt: Die Asymmetrie der Rollen zwischen der Null - und der Alternativhypothese ergibt sich aus der Fähigkeit, die Stichprobenverteilung der Teststatistik unter der Null zu bestimmen, verglichen mit der Notwendigkeit, die Verteilung durch die Effektgröße unter der Null zu parametrisieren alternative Hypothese. Es ist auch nicht der Fall, dass wir "Fehler vom Typ I minimieren": das passiert nie (das Minimum ist immer 0). Bei Tests wird ein Gleichgewicht zwischen den Fehlerraten von Typ I und II angestrebt.

whuber

Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?

Antworten: