Ist es falsch, Ergebnisse als „hoch signifikant“ zu bezeichnen?

18

Warum raten Statistiker davon ab, Ergebnisse als " hoch signifikant" zu bezeichnen, wenn der Wert deutlich unter dem herkömmlichen α- Wert von 0,05 liegt ?pα0,05

Ist es wirklich falsch, einem Ergebnis zu vertrauen, das eine 99,9-prozentige Wahrscheinlichkeit hat, kein Fehler vom Typ I zu sein ( ), als einem Ergebnis, das Ihnen nur diese Chance bei 99% gibt ( p = 0,01 )?p=0,001p=0,01

z8080
quelle
16
Es kann sich lohnen, die Antwort von @ gung hier zu lesen . Kurz: Für die Entscheidung "signifikant vs. nicht signifikant" oder "Nullhypothese ablehnen vs. Nullhypothese nicht ablehnen" ist es nur wichtig, ob der Wert unter Ihrem α liegt, das Sie vor der Studie festgelegt haben (Neyman & Pearson) . Andererseits können Sie den p- Wert als kontinuierliches Beweismaß gegen die Nullhypothese betrachten, für die es keinen "Cutoff" gibt (Fisher). pαp
COOLSerdash
10
Sie haben offenbar ein schwerwiegendes Missverständnis in Bezug auf P-Werte (P-Werte sind keine Fehlerwahrscheinlichkeiten), das Ihnen helfen könnte, zu verstehen, warum Sie bestimmte Dinge von Statistikern hören.
Kerl
10
Ich gebe zu, dass ich manchmal Sätze wie "hoch signifikant" benutze. An anderer Stelle in den Berichten müssen möglicherweise viele der anfänglichen Ergebnisse für mehrere Tests angepasst werden, wobei "hoch signifikant" die eher technische Bedeutung von "bleibt auch nach entsprechender Anpassung für mehrere Vergleiche signifikant" erhält. Selbst wenn sich alle Leser auf das geeignete zu verwendende einigen (was bei Analysen, die von mehreren Stakeholdern verwendet werden, selten vorkommt), hängt das, was "bedeutend" ist oder nicht, von den Hypothesen ab, die jeder Leser vor dem Betrachten des Berichts hatte. α
Whuber
7
Nicht alle Statistiker sagen, dass es falsch ist. Ich benutze den Begriff selbst gelegentlich (zugegebenermaßen selten) - z. B. um anzuzeigen, dass bei diesen Daten die Null von Personen abgelehnt worden wäre, die auf wesentlich niedrigeren Signifikanzstufen als der von mir verwendeten arbeiten, aber es ist wichtig, dieser nicht mehr Bedeutung beizumessen als es hat. Ich würde einfach sagen, dass man Vorsicht walten lassen muss - manchmal ziemlich viel -, wenn man die Bedeutung eines solchen Ausdrucks interpretiert , anstatt dass er spezifisch falsch ist . Einige der Punkte hier wären relevant.
Glen_b
7
(ctd) ... zum Vergleich: Ich denke, ein größeres Problem sind Leute, die Hypothesentests verwenden, die ihre Frage nach dem Interesse einfach nicht beantworten (was meiner Meinung nach sehr oft der Fall ist). Konzentrieren Sie sich lieber auf dieses eklatante und wichtige Thema, als übermäßig dogmatisch über eine geringfügige Unzufriedenheit in der Art und Weise, wie sie einen sehr kleinen p-Wert ausdrücken.
Glen_b

Antworten:

17

Ich denke, es ist nicht viel falsch zu sagen, dass die Ergebnisse "hoch signifikant" sind (obwohl ja, es ist ein bisschen schlampig).

Wenn Sie ein viel kleineres Signifikanzniveau , hätten Sie die Ergebnisse dennoch als signifikant bewertet. Oder, gleichermaßen, wenn einige Ihrer Leser ein viel kleineres α im Sinn haben, können sie Ihre Ergebnisse dennoch als signifikant einschätzen.αα

Beachten Sie, dass das Signifikanzniveau im Auge des Betrachters liegt, während der p- Wert (mit einigen Einschränkungen) eine Eigenschaft der Daten ist.αp

Das Beobachten von ist nicht dasselbe wie das Beobachten von p = 0,04 , obwohl beide nach den Standardkonventionen Ihres Fachgebiets als "signifikant" bezeichnet werden können ( α = 0,05 ). Winziger p- Wert bedeutet stärkere Evidenz gegen die Null (für diejenigen, die das Fisher-Framework für Hypothesentests mögen); Dies bedeutet, dass das Konfidenzintervall um die Effektgröße den Nullwert mit einem größeren Rand ausschließt (für diejenigen, die CIs den p- Werten vorziehen ). es bedeutet, dass die hintere Wahrscheinlichkeit der Null geringer sein wird (für Bayesianer mit einigen Prioritäten); Dies ist alles gleichwertig und bedeutet einfach, dass die Ergebnisse überzeugender sindp=10-10p=0,04α=0,05pp. Siehe Sind kleinere p-Werte überzeugender? für mehr Diskussion.

Der Begriff "hoch signifikant" ist nicht präzise und muss es nicht sein. Es ist ein subjektives Expertenurteil, ähnlich dem Beobachten einer überraschend großen Effektgröße und dem Nennen von "riesig" (oder vielleicht einfach "sehr groß"). Es ist nichts Falsches daran, qualitative, subjektive Beschreibungen Ihrer Daten zu verwenden, selbst im wissenschaftlichen Schreiben. vorausgesetzt natürlich, dass auch die objektive quantitative Analyse dargestellt wird.


Siehe auch einige hervorragende Kommentare oben, +1 an @whuber, @Glen_b und @COOLSerdash.

Amöbe sagt Reinstate Monica
quelle
2
Einverstanden. Der Wert ist ein quantitativer Indikator; Daher ist ein solches Gerede, auch wenn es außerhalb eines bestimmten Kontexts ungenau ist, nicht ipso facto ungültig. Es heißt nur "Bill ist groß" und "Fred ist wirklich groß". Wir sollten auch die Zahlen und ihren Kontext usw. sehen wollen. Nichts davon hindert diejenigen, die scharfe Entscheidungen bei P < 0,05 treffen wollen oder müssen, oder was auch immer, genau das zu tun, was sie wollen, aber ihre Vorlieben regieren nicht darüber Dies. PP<0,05
Nick Cox
Es ist überhaupt nicht schlampig. Es ist gut dokumentiert, eine formale Definition zu haben.
Owl
3

Dies ist eine häufige Frage.

Eine ähnliche Frage könnte lauten: "Warum wird p <= 0,05 als signifikant angesehen?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer gab einen Teil der Antwort: Signifikanz ist nur ein Teil der Antwort. Bei genügend Daten werden normalerweise einige Parameter als "signifikant" angezeigt (Bonferroni-Korrektur nachschlagen). Multiple Tests sind ein spezifisches Problem in der Genetik, wo große Studien, die nach Signifikanz suchen, häufig durchgeführt werden und p-Werte <10 -8 erforderlich sind ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Ein Problem bei vielen Analysen ist auch, dass sie opportunistisch und nicht vorgeplant waren (z. B. "Wenn Sie die Daten genug quälen, wird die Natur immer gestehen." - Ronald Coase).

Wenn eine Analyse im Voraus geplant ist (mit einer Korrektur für eine wiederholte Analyse zur Berücksichtigung der statistischen Aussagekraft), kann sie im Allgemeinen als signifikant angesehen werden. Oft ist das wiederholte Testen durch mehrere Personen oder Gruppen der beste Weg, um zu bestätigen, dass etwas funktioniert (oder nicht). Und die Wiederholung von Ergebnissen ist häufig der richtige Signifikanztest.

Bill Denney
quelle
2

Ein Test ist ein Werkzeug für eine Schwarz-Weiß-Entscheidung, dh er versucht, eine Ja / Nein-Frage zu beantworten, wie z. B. "Gibt es einen echten Behandlungseffekt?". Insbesondere bei großen Datenmengen ist eine solche Frage häufig eine Verschwendung von Ressourcen. Warum eine binäre Frage stellen, wenn es möglich ist, eine Antwort auf eine quantitative Frage wie "Wie groß ist der wahre Behandlungseffekt?" Zu erhalten? das beantwortet implizit auch die ja / nein frage? Anstatt eine nicht informative Ja / Nein-Frage mit hoher Sicherheit zu beantworten, empfehlen wir häufig die Verwendung von Konfidenzintervallen, die viel mehr Informationen enthalten.

Michael M
quelle
2
+1 Obwohl Sie möglicherweise genauer angeben, wie dies die Frage des OP beantwortet (es ist nicht so offensichtlich).
@ Matthew: Ich stimme voll und ganz zu.
Michael M
Danke Michael. Aber ich denke, die Konfidenzintervalle (die die Antwort auf die "kontinuierliche Skala" geben) würden sich auf die Effektgröße beziehen, oder? Braucht man nicht auch eine binäre Antwort, um die kontinuierliche Antwort zu ergänzen, dh ob dieser Effekt (dessen Größe von den CIs beschrieben wird) das vereinbarte α-Niveau erreicht oder nicht? Oder können Sie CIs sogar für den p-Wert selbst angeben?
z8080
(A) "Effektgröße" bezieht sich normalerweise auf eine standardisierte Version des Behandlungseffekts und ist daher weniger leicht zu interpretieren als der Effekt selbst. (B) CI für p-Werte werden manchmal für simulierte p-Werte hinzugefügt, um die Simulationsunsicherheit auszudrücken. (C) Wenn Ihr Level 0,05 beträgt, kann in fast jeder Testsituation die Schwarz / Weiß-Entscheidung aus dem Test abgeleitet werden, indem die entsprechenden 95% ci betrachtet werden.
Michael M
(Forts.) Ihre Frage hat etwas mit folgender zu tun: Ist es sinnvoller festzustellen, dass sogar 99,9999% ci nicht mit der Null kompatibel sind oder dass sogar die Untergrenze der 95% ci für den wahren Effekt sehr vielversprechend ist?
Michael M