Ist es falsch, Ergebnisse als "fast" oder "etwas" signifikant zu bezeichnen?

13

Allgemeiner Konsens zu einer ähnlichen Frage: Ist es falsch, die Ergebnisse als "hoch signifikant" zu bezeichnen? ist, dass "hoch signifikant" eine gültige, wenn auch unspezifische Methode ist, um die Stärke einer Assoziation zu beschreiben, deren p-Wert weit unter Ihrer voreingestellten Signifikanzschwelle liegt. Wie sieht es jedoch mit der Beschreibung von p-Werten aus, die leicht über Ihrer Schwelle liegen? Ich habe gesehen, dass einige Artikel Begriffe wie "etwas Bedeutendes", "fast Bedeutendes", "Annäherungsbedeutendes" usw. verwenden. Ich halte diese Begriffe für etwas verwaschen, in einigen Fällen für eine unaufrichtige Art, ein aussagekräftiges Ergebnis aus einer Studie mit negativen Ergebnissen zu ziehen. Sind diese Begriffe akzeptabel, um Ergebnisse zu beschreiben, die Ihre p-Wert-Grenze "nur verfehlen"?

Kern Wang
quelle
3
Ich glaube nicht, dass jemand vorgeschlagen hat, "Bedeutung" zu qualifizieren, um die "Stärke eines Verbandes" zu beschreiben. Letzteres klingt eher nach einem Maß für die Effektgröße. Siehe Wie auch immer, hier für eine vollere Liste.
Scortchi
1
@Scortchi - Nach meinem Verständnis ist ein sehr kleiner p-Wert von hoher Bedeutung, was eine starke Assoziation zwischen der fraglichen Variablen und dem Ziel bedeutet. Dies ist das Ergebnis einer großen Effektgröße, einer Vielzahl von Daten oder beidem. Bei großen p-Werten ist der Nachweis für eine Assoziation zwischen Variable und Ziel schwach. Lieben Sie auch diese Liste in Ihrem Link.
Nuclear Wang
9
Ein sehr kleiner p-Wert für eine kleine Effektgröße kann kaum als "starke Assoziation" bezeichnet werden. Es wäre nur eine nachweisbare Assoziation.
Whuber
2
Ich habe in der Industrie schon oft Leute gesehen, die diese Ausdrücke verwenden, aber nicht in wissenschaftlichen Veröffentlichungen.
Aksakal,
1
Vielleicht liegt Ihr Unbehagen daran, dass Sie glauben, dass p-Werte (oder eine andere von einer Stichprobe abgeleitete Zahl) ein scharfes Maß für etwas sind.
Eric Towers

Antworten:

14

Wenn Sie zulassen möchten, dass "Signifikanz" Grad zulässt, dann sollten Sie fair genug sein ("etwas Signifikantes", "ziemlich Signifikantes"). Vermeiden Sie jedoch Ausdrücke, die darauf hindeuten, dass Sie immer noch mit der Idee einer Schwelle verbunden sind, wie "beinahe Signifikanz". , "Annäherung an die Signifikanz" oder "An der Schwelle der Signifikanz" (mein Favorit aus "Still Not Significant" im Blog Probable Error ), wenn Sie nicht verzweifelt erscheinen möchten.

Scortchi - Monica wieder einsetzen
quelle
9
(+1) für den Link. Aber ich denke, der Höhepunkt der dortigen poetischen Kreativität ist "das Schwanken am Rande der Bedeutung (p = 0,06)" .
Alecos Papadopoulos
1
@AlecosPapadopoulos: Sie haben Recht, obwohl "mit herkömmlichen Signifikanzniveaus flirten" und "näher an der statistischen Signifikanz schweben" ehrenwerte Erwähnungen verdienen. "Quasi-signifikant" ist vielleicht ein Gewinner in einer anderen Kategorie.
Scortchi - Wiedereinsetzung von Monica
4
Tatsächlich sind die ersten beiden von echtem Filmgeist, der erste aus dem Film "Statistical Gigolo" (wer würde sonst mit einem konventionellen Level flirten ?), Während der zweite aus dem Film "Dying on the Tail", in dem wir den bedrohlichen Geier sehen (p-Wert) schwebt über dem sterbenden Helden (statistische Signifikanz).
Alecos Papadopoulos
1
Persönlich würde ich das Wort "signifikant" in meiner Formulierung aufgeben und p = 0,06 als "ziemlich interessant" bezeichnen. Zu Recht oder zu Unrecht, als ich zum ersten Mal auf p-Werte in einem Six Sigma-Kurs stieß, schlug der Kursleiter vor, dass für 0,05 <= 0,1 das richtige Etikett "mehr Daten erforderlich" sei (basierend auf einer industriellen Umgebung, in der zusätzliche Datenpunkte schwer zu erfassen sind , also völlig anders als in jedem Big-Data-Szenario
Robert de Graaf
6

Aus meiner Sicht läuft das Problem darauf hinaus, was es eigentlich bedeutet, einen Signifikanztest durchzuführen. Signifikanztests wurden entwickelt, um die Entscheidung zu treffen, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Fisher selbst führte die berüchtigte 0.05-Regel ein, um diese (willkürliche) Entscheidung zu treffen.

Grundsätzlich besteht die Logik der Signifikanzprüfung darin, dass der Benutzer ein Alpha-Niveau zum Zurückweisen der Nullhypothese (üblicherweise 0,05) vor dem Sammeln der Daten angeben muss . Nach Abschluss des Signifikanztests lehnt der Benutzer die Null ab, wenn der p-Wert kleiner als das Alpha-Niveau ist (oder lehnt ihn sonst nicht ab).

Der Grund, warum Sie einen Effekt nicht als hoch signifikant deklarieren können (etwa auf der Ebene von 0,001), liegt darin, dass Sie keine stärkeren Beweise finden können, als Sie beabsichtigt haben. Wenn Sie also Ihr Alpha-Niveau vor dem Test auf 0,05 einstellen, können Sie nur Beweise auf 0,05 finden, unabhängig davon, wie klein Ihre p-Werte sind. Ebenso macht es wenig Sinn, von Effekten zu sprechen, die "etwas signifikant" sind oder sich der Signifikanz nähern ", da Sie dieses willkürliche Kriterium von 0,05 gewählt haben. Wenn Sie die Logik des Signifikanztests sehr wörtlich interpretieren, ist alles, was größer als 0,05 ist, nicht signifikant.

Ich stimme zu, dass Begriffe wie "Annäherung an die Bedeutung" häufig verwendet werden, um die Aussichten auf Veröffentlichung zu verbessern. Ich glaube jedoch nicht, dass Autoren dafür verantwortlich gemacht werden können, da die aktuelle Publikationskultur in einigen Wissenschaften immer noch stark vom "Heiligen Gral" von 0,05 abhängt.

Einige dieser Probleme werden in folgenden Abschnitten behandelt:

Gigerenzer, G. (2004). Gedankenlose Statistiken. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Statistische Evidenz: Ein Wahrscheinlichkeitsparadigma (Vol. 71). CRC drücken.

Martin R. Vasilev
quelle
1
Sie mischen die wissenschaftliche Philosophie der Fischer mit dem Ansatz von Neyman / Pearson, wenn Sie den Signifikanztests von Fisher eine Alpha-Stufe hinzufügen.
RBirkelbach
5

Diese rutschige Neigung geht auf das Fisher-vs-Neyman-Pearson-Gerüst zurück, um eine Nullhypothesen-Signifikanzprüfung (NHST) durchzuführen. Einerseits möchte man quantitativ beurteilen, wie unwahrscheinlich ein Ergebnis unter der Nullhypothese ist (z. B. Effektgrößen). Auf der anderen Seite möchten Sie am Ende des Tages eine diskrete Entscheidung darüber treffen, ob Ihre Ergebnisse wahrscheinlich allein dem Zufall zuzuschreiben sind oder nicht. Am Ende haben wir eine Art hybriden Ansatz, der nicht sehr zufriedenstellend ist.

In den meisten Disziplinen wird das konventionelle p für Signifikanz auf 0,05 gesetzt, aber es gibt wirklich keinen Grund, warum dies so sein muss. Wenn ich eine Abhandlung überprüfe, habe ich absolut kein Problem mit einem Autor, der 0.06 signifikant oder sogar 0.07 nennt, vorausgesetzt, die Methode ist solide, und das gesamte Bild, einschließlich aller Analysen, Zahlen usw., erzählt eine konsistente und glaubwürdige Geschichte. Probleme treten auf, wenn Autoren versuchen, aus trivialen Daten mit kleinen Effektgrößen eine Geschichte zu erstellen. Umgekehrt glaube ich möglicherweise nicht, dass ein Test praktisch sinnvoll ist, selbst wenn er die konventionelle p <0,05-Signifikanz erreicht. Ein Kollege von mir sagte einmal: "Ihre Statistiken sollten einfach das belegen, was bereits in Ihren Zahlen zu sehen ist."

Das alles sagte, ich denke, Vasilev ist richtig. In Anbetracht des kaputten Publikationssystems müssen Sie p-Werte einschließen, und daher müssen Sie das Wort "signifikant" verwenden, um ernst genommen zu werden, auch wenn es Adjektive wie "marginal" erfordert (was ich bevorzuge). Sie können immer im Peer Review gegeneinander antreten, aber Sie müssen es zuerst schaffen.

HEITZ
quelle
5

Der Unterschied zwischen zwei p-Werten selbst ist typischerweise nicht signifikant. Es spielt also keine Rolle, ob Ihr p-Wert 0,05, 0,049, 0,051 ist ...

In Bezug auf p-Werte als Maß für die Assoziationsstärke: Ein p-Wert ist nicht direkt ein Maß für die Assoziationsstärke. Ein p-Wert ist die Wahrscheinlichkeit, dass Sie so extreme oder extremere Daten finden wie die von Ihnen beobachteten Daten, vorausgesetzt, der Parameter wird mit 0 angenommen (wenn Sie an der Nullhypothese interessiert sind - siehe den Kommentar von Nick Cox). Dies ist jedoch häufig nicht die Größe, an der der Forscher interessiert ist. Viele Forscher sind eher daran interessiert, Fragen wie "Wie groß ist die Wahrscheinlichkeit, dass der Parameter einen bestimmten Grenzwert überschreitet?" Zu beantworten. Wenn Sie daran interessiert sind, müssen Sie zusätzliche Vorinformationen in Ihr Modell aufnehmen.

RBirkelbach
quelle
6
Ich bin damit einverstanden, aber das Kleingedruckte erfordert wie immer absolute Wachsamkeit. msgstr "wenn der Parameter angegeben ist, wird angenommen, dass er 0 ist": häufig, aber nicht immer. P-Werte können auch für andere Hypothesen berechnet werden. Auch für "angenommen" lesen "hypothetisch".
Nick Cox
Sie haben vollkommen recht - ich bearbeite meine Antwort!
RBirkelbach
3

p<αp>α(Natürlich nicht die Stärke der Wirkung). Für einen solchen "Kontinuisten" ist "fast signifikant" eine sinnvolle Art, ein Ergebnis mit einem moderaten p-Wert zu beschreiben. Das Problem entsteht, wenn die Menschen diese beiden Philosophien vermischen - oder sich schlimmer noch nicht bewusst sind, dass beide existieren. (Übrigens - Leute nehmen diese Karte oft sauber auf Neyman / Pearson und Fisher an, aber sie tun es nicht; daher meine zugegebenermaßen ungeschickten Begriffe für sie). Weitere Einzelheiten hierzu finden Sie in einem Blogbeitrag zu diesem Thema hier: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

Stephen Heard
quelle
1

Ich neige dazu zu denken, etwas zu sagen, das fast statistisch signifikant ist, ist vom technischen Standpunkt aus nicht korrekt. Sobald Sie Ihr Toleranzniveau eingestellt haben, wird der statistische Signifikanztest festgelegt. Sie müssen zur Idee der Stichprobenverteilung zurückkehren. Wenn Ihre Toleranz bei 0,05 liegt und Sie zufällig einen p-Wert von 0,053 erhalten, hat die verwendete Stichprobe zufällig diese Statistik geliefert. Sie könnten sehr gut eine andere Stichprobe erhalten, die möglicherweise nicht die gleichen Ergebnisse liefert. Ich glaube, die Wahrscheinlichkeit, dass dies eintritt, basiert auf dem festgelegten Toleranzniveau und nicht auf der Stichprobenstatistik. Denken Sie daran, dass Sie Stichproben mit einem Populationsparameter testen und die Stichproben eine eigene Stichprobenverteilung haben. Meiner Meinung nach ist etwas statistisch signifikant oder nicht.

Chris Kwaramba
quelle
0

[0,1]H0p>α

Dies ist eine ganz andere Geschichte, wenn Sie die Null ablehnen, da der p-Wert unter nicht gleichmäßig verteilt ist H1 Die Verteilung hängt jedoch vom Parameter ab.

Siehe zum Beispiel Wikipedia .

snaut
quelle
Ich folge dir nicht ganz. Ja, bei einer kontinuierlichen Verteilung ist die Wahrscheinlichkeit, ein Ergebnis von genau 0,051 zu erhalten, gleich der Wahrscheinlichkeit, ein Ergebnis von genau 1 zu erhalten - sie ist Null. Beim Testen von Hypothesen wird jedoch die Wahrscheinlichkeit untersucht, einen Wert zu sehen, der mindestens so extrem ist wie der beobachtete. Sie werden immer einen p-Wert finden, der mindestens so extrem ist wie 1, aber es ist weitaus weniger wahrscheinlich, dass ein p-Wert so extrem ist wie 0,051. Was macht diesen Unterschied "bedeutungslos"?
Nuclear Wang
Unter der Null ist es genauso wahrscheinlich, einen p-Wert im Intervall [0.05.0.051] zu beobachten wie einen p-Wert im Intervall [0.999.1]. Die Beobachtung eines p-Wertes, der näher an der Schwelle liegt, ist kein Beweis mehr für die 0 als die Beobachtung eines anderen p-Wertes außerhalb des Ablehnungsbereichs.
Snaut
Einige nennen einen p-Wert von 0,05 signifikant, andere verwenden 0,01 oder 0,1 als Schwellenwert. Unter 3 Forschern, die die gleiche Analyse durchführen und einen p-Wert von 0,03 finden, könnten zwei dies als signifikant bezeichnen und einer als nicht. Wenn alle einen p-Wert von 0,91 finden, wird keiner dies als signifikant bezeichnen. Ein p-Wert, der näher an der Schwelle liegt, bedeutet, dass mehr Personen davon ausgehen, dass es genügend Beweise gibt, um die Null abzulehnen. Ich verstehe nicht, warum p = 0,051 und p = 1 in Bezug auf die Unterstützung von H1 nicht zu unterscheiden sind - einige Leute werden zu Recht H1 mit p = 0,051 unterstützen; niemand wird dies mit p = 1 tun.
Nuclear Wang