Allgemeiner Konsens zu einer ähnlichen Frage: Ist es falsch, die Ergebnisse als "hoch signifikant" zu bezeichnen? ist, dass "hoch signifikant" eine gültige, wenn auch unspezifische Methode ist, um die Stärke einer Assoziation zu beschreiben, deren p-Wert weit unter Ihrer voreingestellten Signifikanzschwelle liegt. Wie sieht es jedoch mit der Beschreibung von p-Werten aus, die leicht über Ihrer Schwelle liegen? Ich habe gesehen, dass einige Artikel Begriffe wie "etwas Bedeutendes", "fast Bedeutendes", "Annäherungsbedeutendes" usw. verwenden. Ich halte diese Begriffe für etwas verwaschen, in einigen Fällen für eine unaufrichtige Art, ein aussagekräftiges Ergebnis aus einer Studie mit negativen Ergebnissen zu ziehen. Sind diese Begriffe akzeptabel, um Ergebnisse zu beschreiben, die Ihre p-Wert-Grenze "nur verfehlen"?
13
Antworten:
Wenn Sie zulassen möchten, dass "Signifikanz" Grad zulässt, dann sollten Sie fair genug sein ("etwas Signifikantes", "ziemlich Signifikantes"). Vermeiden Sie jedoch Ausdrücke, die darauf hindeuten, dass Sie immer noch mit der Idee einer Schwelle verbunden sind, wie "beinahe Signifikanz". , "Annäherung an die Signifikanz" oder "An der Schwelle der Signifikanz" (mein Favorit aus "Still Not Significant" im Blog Probable Error ), wenn Sie nicht verzweifelt erscheinen möchten.
quelle
Aus meiner Sicht läuft das Problem darauf hinaus, was es eigentlich bedeutet, einen Signifikanztest durchzuführen. Signifikanztests wurden entwickelt, um die Entscheidung zu treffen, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Fisher selbst führte die berüchtigte 0.05-Regel ein, um diese (willkürliche) Entscheidung zu treffen.
Grundsätzlich besteht die Logik der Signifikanzprüfung darin, dass der Benutzer ein Alpha-Niveau zum Zurückweisen der Nullhypothese (üblicherweise 0,05) vor dem Sammeln der Daten angeben muss . Nach Abschluss des Signifikanztests lehnt der Benutzer die Null ab, wenn der p-Wert kleiner als das Alpha-Niveau ist (oder lehnt ihn sonst nicht ab).
Der Grund, warum Sie einen Effekt nicht als hoch signifikant deklarieren können (etwa auf der Ebene von 0,001), liegt darin, dass Sie keine stärkeren Beweise finden können, als Sie beabsichtigt haben. Wenn Sie also Ihr Alpha-Niveau vor dem Test auf 0,05 einstellen, können Sie nur Beweise auf 0,05 finden, unabhängig davon, wie klein Ihre p-Werte sind. Ebenso macht es wenig Sinn, von Effekten zu sprechen, die "etwas signifikant" sind oder sich der Signifikanz nähern ", da Sie dieses willkürliche Kriterium von 0,05 gewählt haben. Wenn Sie die Logik des Signifikanztests sehr wörtlich interpretieren, ist alles, was größer als 0,05 ist, nicht signifikant.
Ich stimme zu, dass Begriffe wie "Annäherung an die Bedeutung" häufig verwendet werden, um die Aussichten auf Veröffentlichung zu verbessern. Ich glaube jedoch nicht, dass Autoren dafür verantwortlich gemacht werden können, da die aktuelle Publikationskultur in einigen Wissenschaften immer noch stark vom "Heiligen Gral" von 0,05 abhängt.
Einige dieser Probleme werden in folgenden Abschnitten behandelt:
Gigerenzer, G. (2004). Gedankenlose Statistiken. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Statistische Evidenz: Ein Wahrscheinlichkeitsparadigma (Vol. 71). CRC drücken.
quelle
Diese rutschige Neigung geht auf das Fisher-vs-Neyman-Pearson-Gerüst zurück, um eine Nullhypothesen-Signifikanzprüfung (NHST) durchzuführen. Einerseits möchte man quantitativ beurteilen, wie unwahrscheinlich ein Ergebnis unter der Nullhypothese ist (z. B. Effektgrößen). Auf der anderen Seite möchten Sie am Ende des Tages eine diskrete Entscheidung darüber treffen, ob Ihre Ergebnisse wahrscheinlich allein dem Zufall zuzuschreiben sind oder nicht. Am Ende haben wir eine Art hybriden Ansatz, der nicht sehr zufriedenstellend ist.
In den meisten Disziplinen wird das konventionelle p für Signifikanz auf 0,05 gesetzt, aber es gibt wirklich keinen Grund, warum dies so sein muss. Wenn ich eine Abhandlung überprüfe, habe ich absolut kein Problem mit einem Autor, der 0.06 signifikant oder sogar 0.07 nennt, vorausgesetzt, die Methode ist solide, und das gesamte Bild, einschließlich aller Analysen, Zahlen usw., erzählt eine konsistente und glaubwürdige Geschichte. Probleme treten auf, wenn Autoren versuchen, aus trivialen Daten mit kleinen Effektgrößen eine Geschichte zu erstellen. Umgekehrt glaube ich möglicherweise nicht, dass ein Test praktisch sinnvoll ist, selbst wenn er die konventionelle p <0,05-Signifikanz erreicht. Ein Kollege von mir sagte einmal: "Ihre Statistiken sollten einfach das belegen, was bereits in Ihren Zahlen zu sehen ist."
Das alles sagte, ich denke, Vasilev ist richtig. In Anbetracht des kaputten Publikationssystems müssen Sie p-Werte einschließen, und daher müssen Sie das Wort "signifikant" verwenden, um ernst genommen zu werden, auch wenn es Adjektive wie "marginal" erfordert (was ich bevorzuge). Sie können immer im Peer Review gegeneinander antreten, aber Sie müssen es zuerst schaffen.
quelle
Der Unterschied zwischen zwei p-Werten selbst ist typischerweise nicht signifikant. Es spielt also keine Rolle, ob Ihr p-Wert 0,05, 0,049, 0,051 ist ...
In Bezug auf p-Werte als Maß für die Assoziationsstärke: Ein p-Wert ist nicht direkt ein Maß für die Assoziationsstärke. Ein p-Wert ist die Wahrscheinlichkeit, dass Sie so extreme oder extremere Daten finden wie die von Ihnen beobachteten Daten, vorausgesetzt, der Parameter wird mit 0 angenommen (wenn Sie an der Nullhypothese interessiert sind - siehe den Kommentar von Nick Cox). Dies ist jedoch häufig nicht die Größe, an der der Forscher interessiert ist. Viele Forscher sind eher daran interessiert, Fragen wie "Wie groß ist die Wahrscheinlichkeit, dass der Parameter einen bestimmten Grenzwert überschreitet?" Zu beantworten. Wenn Sie daran interessiert sind, müssen Sie zusätzliche Vorinformationen in Ihr Modell aufnehmen.
quelle
quelle
Ich neige dazu zu denken, etwas zu sagen, das fast statistisch signifikant ist, ist vom technischen Standpunkt aus nicht korrekt. Sobald Sie Ihr Toleranzniveau eingestellt haben, wird der statistische Signifikanztest festgelegt. Sie müssen zur Idee der Stichprobenverteilung zurückkehren. Wenn Ihre Toleranz bei 0,05 liegt und Sie zufällig einen p-Wert von 0,053 erhalten, hat die verwendete Stichprobe zufällig diese Statistik geliefert. Sie könnten sehr gut eine andere Stichprobe erhalten, die möglicherweise nicht die gleichen Ergebnisse liefert. Ich glaube, die Wahrscheinlichkeit, dass dies eintritt, basiert auf dem festgelegten Toleranzniveau und nicht auf der Stichprobenstatistik. Denken Sie daran, dass Sie Stichproben mit einem Populationsparameter testen und die Stichproben eine eigene Stichprobenverteilung haben. Meiner Meinung nach ist etwas statistisch signifikant oder nicht.
quelle
Dies ist eine ganz andere Geschichte, wenn Sie die Null ablehnen, da der p-Wert unter nicht gleichmäßig verteilt istH1 Die Verteilung hängt jedoch vom Parameter ab.
Siehe zum Beispiel Wikipedia .
quelle