Reicht ein p-Wert von 0,04993 aus, um die Nullhypothese abzulehnen?

20

In einem Wilcoxon-Signed-Ranks-Test zur statistischen Signifikanz stießen wir auf einige Daten, die einen von . Reicht dieses Ergebnis bei einem Schwellenwert von aus, um die Nullhypothese zu verwerfen, oder ist es sicherer zu sagen, dass der Test nicht schlüssig war, da er, wenn wir den p-Wert auf 3 Dezimalstellen runden, zu ?0,04993 p < 0,05 0,050p0.04993p<0.050.050

Islam El-Nabarawy
quelle
24
0,04993 <0,05, also ist es nur niedriger. Ihr Instinkt ist gut, dass kein P-Wert mehreren Dezimalstellen vertraut werden kann, aber wenn das Programm weniger als 0,05 sagt, wird es im Allgemeinen als geliefert angenommen. Das eigentliche Problem dabei ist, einen Fetisch mit Signifikanztests auf festem Niveau zu erstellen, sodass <0,05 "echt", "veröffentlichbar", "Grund zum Glück" und das Gegenteil "illusorisch", "nicht veröffentlichbar", "Grund zum Elend" bedeutet. . Die meisten guten Einführungstexte zur Statistik diskutieren dies teilweise. Ein guter ist Freedman, Pisani, Purves, Statistics . New York: WW Norton, jede Ausgabe.
Nick Cox
8
Sie müssen sich fragen, was Ihre Entscheidung wäre, wenn der p-Wert 0,051 beträgt? Was ist, wenn es 0.049 ist? Würden Sie andere Entscheidungen treffen? Warum?
AlefSin
2
Vielen Dank für Ihre Kommentare. In unserem Fall überlegen wir nicht, ob die Daten veröffentlicht werden können oder nicht usw. Wir erwägen lediglich, in der Veröffentlichung eine Aussage über die statistische Signifikanz dieses Ergebnisses zu treffen, und wir möchten sicherstellen, dass unsere Aussage nicht falsch oder ungenau ist .
Islam El-Nabarawy
3
Das Melden von P = 0,04993 fällt mir ein. Es ist schwierig, Kommentare von Rezensenten oder Redakteuren vorherzusagen. Wenn Sie runden möchten, ist die Angabe einer konsistenten Rundungskonvention immer eine gute Idee und allgemein akzeptabel. Einige Leute würden auf 3 Punkte runden und könnten auch eine Art Sternenkonvention verwenden, so dass es konsistent ist, 0,050 (3 Punkte) zu melden und als <0,05 zu markieren.
Nick Cox
2
Ich weiß nicht ... vielleicht sollten wir einen doppelten Bootstrap ausführen und ein Konfidenzintervall für den Wert berechnen ! In aller Ehrlichkeit würde ich berichten: "Die Ergebnisse waren grenzwertig signifikant, ." Zu diesem Zeitpunkt spaltet man die Haare, und plötzlich erinnert sich jeder, dass eine Wahrscheinlichkeit von 1/20 eines falschen Positivs ein völlig willkürlicher Weg ist, die Wissenschaft zu betreiben. 0,049 < p < 0,050p0.049<p<0.050
AdamO

Antworten:

21

Hier gibt es zwei Probleme:

1) Was ist die formale Ablehnungsregel, wenn Sie einen formalen Hypothesentest durchführen (und wenn Sie bereits einen p-Wert in meinem Buch angeben) ?

Beim Vergleich der Teststatistik mit kritischen Werten liegt der kritische Wert im Ablehnungsbereich . Während diese Formalität nicht viel ausmacht, wenn alles kontinuierlich ist, spielt es eine Rolle, wenn die Verteilung der Teststatistik diskret ist.

Dementsprechend lautet die Regel beim Vergleich von p-Werten und Signifikanzniveaus:

          Ablehnen, wennpα

Bitte beachten Sie, dass Sie auch dann, wenn Sie Ihren p-Wert auf 0,05 aufrunden, formal sogar dann ablehnen sollten, wenn der Wert exakt 0,05 betrug .p

2) In Bezug auf "Was sagt uns unser p-Wert", wenn Sie dann annehmen, dass Sie einen p-Wert sogar als "Beweis gegen die Null" interpretieren können (sagen wir, dass die Meinung dazu etwas geteilt ist), sind 0,0499 und 0,0501 dies nicht wirklich verschiedene Dinge über die Daten zu sagen (Effektgrößen würden dazu neigen, fast identisch zu sein).

Mein Vorschlag wäre, (1) die Null formal abzulehnen und vielleicht darauf hinzuweisen, dass sie auch dann abgelehnt werden sollte, wenn sie genau 0,05 wäre; (2) zur Kenntnis , dass es nichts besonders speziell etwa und es ist sehr nahe an diese Grenze - auch eine etwas kleinere Signifikanzschwelle nicht zu Ablehnung führen.α=0.05

Glen_b - Setzen Sie Monica wieder ein
quelle
2
Aber auch hier können Sie sehr ähnliche Argumente verwenden, um null nicht abzulehnen. 0,05 ist nichts Besonderes, wenn Sie 0,06 als Ihr Limit gewählt hätten, würden Sie wahrscheinlich nicht die Frage stellen, aber die Situation wäre nicht so viel anders ... Eher würde ich in diesen Situationen fragen: "Was ist das eigentlich Lebenssinn dieses Ergebnisses? " Wenn dies beispielsweise ein biologisches Experiment wäre, würde ich nach der biologischen Signifikanz des spezifischen Ergebnisses suchen, den p-Wert so wie er ist angeben und eher die Biologie kommentieren.
Nico
@nico das war schon der Punkt meines Artikels (2); es spricht sich gegen ein
übermäßiges
Danke glen und nico Dieser Teil der Daten war sekundär zu unseren Experimenten, daher haben wir den Wert so gemeldet, wie er ist. In jedem Fall markiere ich dies als akzeptierte Antwort. Nochmals vielen Dank an alle, die mit Antworten oder Kommentaren teilgenommen haben.
Islam El-Nabarawy
5

Es liegt im Auge des Betrachters.

αα=0.05

Es läuft also wirklich auf das hinaus, was AlefSin zuvor kommentiert hat. Es kann keine "richtige Antwort" auf Ihre Frage geben. Berichten Sie, was Sie haben, gerundet oder nicht.

Es gibt eine riesige Literatur über die "Bedeutung der Bedeutung"; siehe zum Beispiel den kürzlich erschienenen Aufsatz eines der führenden deutschen Statistiker, Walter Krämer, zum Thema "Der Kult von statistischer Bedeutung - Was Ökonomen tun sollten und was nicht, um ihre Daten zum Sprechen zu bringen", Schmollers Jahrbuch 131 , 455-468, 2011.

Schädelgrube
quelle
-6

p=0.05

Das Hauptproblem ist dieser Satz: "Wir sind auf einige Daten gestoßen ...".

pp

Es gibt einen Namen für diese Art von statistischem Fehlverhalten: das Ausbaggern von Daten . Ich bin ambivalent, wenn es darum geht, es in der Zeitung als interessante Hypothese zu beschreiben. Hat es einen physischen Grund, den Sie für wahrscheinlich halten?

Es gibt jedoch einen Ausweg. Vielleicht haben Sie sich a priori entschieden , nur diesen einen Test mit nur diesem einen Datensatz durchzuführen . Sie haben das in Ihr Laborbuch geschrieben, damit Sie es später nachweisen können. Dann hast du deinen Test gemacht.

p=0.05

Mike McCoy
quelle
14
Dies hängt möglicherweise zu stark von einer bestimmten Wahl der Phrasierung ab. Sie nehmen ziemlich viel von einer möglicherweise schlechten Wortwahl an - nicht jeder hier hat Englisch als Muttersprache. Es lohnt sich auf jeden Fall, als potenzielles Problem anzusprechen, aber wenn Sie die Dinge einfach so kahlköpfig ausdrücken ("absolut nicht"), bedeutet dies, dass Sie mehr wissen, als wir von dem, was hier ist, sagen können. (Außerdem impliziert der Verweis auf ein "Labor-Notizbuch", dass das OP in einem Labor arbeitet. Ich bezweifle, dass dies der Fall ist. Sie implizieren wiederum, dass Sie mehr wissen als wir hier.)
Glen_b -Reinstate Monica
10
Mike McCoy, vielen Dank für Ihre Antwort, aber ich fürchte, in diesem Fall ist Glen_b richtig. Ich bin kein englischer Muttersprachler und während ich mich bemühe, so flüssig wie möglich zu schreiben und zu sprechen, entziehen sich mir der Gebrauch und die Konnotation weiterhin. In diesem speziellen Fall haben wir also nicht verschiedene Dinge ausprobiert, bis wir etwas gefunden haben, das von Bedeutung war. Wir versuchten zu beweisen, dass es keinen statistisch signifikanten Anstieg bei einem Fehlerwert gab. In einem bestimmten Fall stellten wir fest, dass der Fehler tatsächlich reduziert war. Als wir den W-Test durchführten, erhielten wir hier den Wert 0,0499 .
Islam El-Nabarawy
1
Mike, ich habe auch kein Problem in der Formulierung der Frage gesehen. Und es sieht so aus, als hätte sonst niemand Anzeichen dafür gesehen, dass Daten beschnüffelt, abgebaut oder ausgebaggert wurden. Und das liegt definitiv im Auge des Betrachters. Es gibt keine mathematische Tatsache, sondern eine vom Statistiker gewählte Entscheidungsregel. Lesen Sie noch einmal, was AlefSin, Glen in seinem Punkt (2) und ich geschrieben haben.
Skullduggery
3
@ IslamEl-Nabarawy Wenn Sie Äquivalenz / fehlende Differenz ermitteln möchten, haben Sie viele andere Probleme als die Interpretation eines Werts nahe dem Schwellenwert oder das Aufspüren potenzieller Daten. Es ist definitiv nicht genug , einen p- Wert zu finden, der etwas über 0,05 liegt (oder welches Fehlerlevel Sie auch wählen). Suchen Sie hier und anderswo nach „Testen auf Äquivalenz“ oder stellen Sie eine spezielle Frage dazu, da es sich um ein ganz anderes Problem handelt.
Gala
4
"Es gibt jedoch einen Ausweg. Vielleicht haben Sie sich a priori entschlossen, nur diesen einen Test mit nur diesem einen Datensatz durchzuführen. Sie haben das in Ihr Laborbuch geschrieben, vor jemandem, damit Sie es später nachweisen können. Dann Sie haben Ihren Test. Wenn du das getan hast, dann ist dein Ergebnis am p = 0,05 Ebene gültig ist, und Sie können es bis zu Skeptiker wie mich zurück. Andernfalls, sorry, es ist kein statistisch signifikantes Ergebnis“ist Sprechen Sie über schuldig bis zum Beweis unschuldig. Wenn keine forensischen Beweise vorliegen, die akademische Unehrlichkeit ausschließen, ist eine Analyse wertlos? Meine Güte.
GoF_Logistic