Akzeptanz der Nullhypothese

15

Dies ist eine Diskussionsfrage zum Schnittpunkt von Statistik und anderen Wissenschaften. Ich stehe oft vor dem gleichen Problem: Forscher auf meinem Gebiet neigen dazu zu sagen, dass es keinen Effekt gibt, wenn der p-Wert nicht unter dem Signifikanzniveau liegt. Anfangs habe ich oft geantwortet, dass dies nicht die Funktionsweise von Hypothesentests ist. Angesichts der Häufigkeit dieser Frage möchte ich dieses Thema mit erfahrenen Statistikern diskutieren.

Betrachten wir einen kürzlich erschienenen Artikel in einer wissenschaftlichen Zeitschrift der „Best Publishing Group“ Nature Communications Biology (es gibt mehrere Beispiele, aber konzentrieren wir uns auf eines).

Forscher interpretieren ein nicht statistisch signifikantes Ergebnis folgendermaßen:

Eine chronische Einschränkung der Kalorienzufuhr kann somit die Lebensdauer verlängern und die Gesundheit eines Primaten verbessern, beeinträchtigt jedoch die Integrität der grauen Hirnsubstanz, ohne die kognitiven Leistungen zu beeinträchtigen .

Beweis:

Die Leistungen in der Barnes-Labyrinthaufgabe unterschieden sich jedoch nicht zwischen Kontroll- und kalorienreduzierten Tieren (LME: F = 0,05, p = 0,82; Fig. 2a). In ähnlicher Weise zeigte die spontane Wechselaufgabe keinen Unterschied zwischen Kontroll- und kalorienreduzierten Tieren (LME: F = 1,63, p = 0,22; 2b).

Die Autoren schlagen auch die Erklärung des Fehlens des Effekts vor - aber der entscheidende Punkt ist nicht die Erklärung, sondern die Behauptung selbst. Die zur Verfügung gestellten Darstellungen sehen für mich "auf den ersten Blick" deutlich anders aus (Abbildung 2).

Darüber hinaus ignorieren die Autoren die Vorkenntnisse:

Für Ratten sowie für zerebrale und emotionale Funktionen beim Menschen wurden schädliche Auswirkungen einer Kalorieneinschränkung auf die kognitive Leistung berichtet

Ich kann die gleiche Behauptung für die riesigen Stichprobengrößen verstehen (kein Effekt = kein praktisch signifikanter Effekt), aber in bestimmten Situationen wurden komplexe Tests verwendet und es ist für mich nicht offensichtlich, wie man Leistungsberechnungen durchführt.

Fragen:

  1. Habe ich irgendwelche Details übersehen, die ihre Schlussfolgerungen bestätigen?

  2. In Anbetracht der Notwendigkeit, negative Ergebnisse in der Wissenschaft zu melden , kann der Nachweis erbracht werden, dass es sich nicht um "das Fehlen von Ergebnissen" handelt (das wir mitp>α ), sondern um ein negatives Ergebnis (z. B. gibt es keinen Unterschied zwischen Gruppen). Statistiken verwenden? Ich verstehe, dass bei großen Stichprobengrößen selbst kleine Abweichungen von Null eine Zurückweisung verursachen. Nehmen wir jedoch an, dass wir über ideale Daten verfügen und weiterhin nachweisen müssen, dass Null praktisch zutrifft.

  3. Sollten Statistiker immer auf mathematisch korrekten Schlussfolgerungen bestehen wie "Mit dieser Fähigkeit konnten wir keine Auswirkungen von signifikanter Größe feststellen"? Forscher aus anderen Bereichen lehnen solche Formulierungen negativer Ergebnisse stark ab.

Ich würde mich über Gedanken zu dem Problem freuen und habe verwandte Fragen auf dieser Website gelesen und verstanden. Die Fragen 2) -3) sind aus statistischer Sicht eindeutig zu beantworten, aber ich möchte verstehen, wie diese Fragen im Falle eines interdisziplinären Dialogs zu beantworten sind.

UPD: Ich denke, ein gutes Beispiel für ein negatives Ergebnis ist die erste Stufe der medizinischen Prüfungen, die Sicherheit. Wann können Wissenschaftler entscheiden, dass das Medikament sicher ist? Ich denke, sie vergleichen zwei Gruppen und machen Statistiken über diese Daten. Gibt es eine Möglichkeit zu sagen, dass dieses Medikament sicher ist? Cochrane verwendet genaue "keine Nebenwirkungen gefunden wurden", aber die Ärzte sagen, dass dieses Medikament sicher ist. Wenn das Gleichgewicht zwischen Genauigkeit und Einfachheit der Beschreibung stimmt und wir sagen können, dass es keine Konsequenzen für die Gesundheit gibt?

Deutscher Demidov
quelle
2
Sie bezeichnen nicht statistisch signifikante Ergebnisse als "negative" Studie. Dies ist eine defenestrierende Sprache. Ich habe es überarbeitet, um es so zu nennen, wie es ist: nicht statistisch signifikant, z . B. . Wenn ich falsch liege, sagen Sie mir bitte, wie. Andernfalls ist es eine nützliche Sprache für Sie und Ihre Mitarbeiter, um eine Studie zu beschreiben. p > α bedeutet nur, dass p > α ist . Wenn n = 500 , 000 , die ein sehr „positiv“ zu finden , in mancher Hinsicht sein kann; Vielleicht ist dies die erste epidemiologische Studie in großem Maßstab, in der das Verhältnis zwischen chemischer Exposition und menschlicher Gesundheit untersucht wurde, die feststellt, dass sie tatsächlich sicher ist. p>αp>αp>αn=500,000
AdamO
4
Randnotiz: Ich würde niemals empfehlen, Nature als Richtlinie für den richtigen Umgang mit Statistiken zu verwenden.
Cliff AB
1
@AdamO Ich habe ein Beispiel für zwei Artikel, die mehr oder weniger gleichzeitig veröffentlicht wurden. In einem Artikel haben die Autoren ein stark negatives Ergebnis angegeben (es war ihre Hauptschlussfolgerung). Wenn der Erstautor jedoch schreiben würde, "mit einer Potenz von 80% bei einer Effektgröße von 1 konnten wir keinen signifikanten Effekt feststellen", würde er nicht einmal im Journal für negative Ergebnisse veröffentlicht.
Deutsch Demidov
2
Aber Nicht-Statistiker fragen mich: "Wie beweisen Sie negative Ergebnisse?" - und ich weiß nicht, wie ich antworten soll. Was ist mit Hypothesen, die häufig in Äquivalenzversuchen verwendet werden ? Dies schließt einen zusätzlichen Ausdruck als "Äquivalenzspanne" ein und kann die mittlere Differenz berücksichtigen.
Penguin_Knight
2
Es ist ein häufiger Fehler, den die Nature Publishing Group ausnutzt, aber der Prestigeunterschied zwischen den Zeitschriften ist enorm. Natürlich können Artikel in Nature selbst auch schlampige Statistiken enthalten.
Amöbe sagt Reinstate Monica

Antworten:

7

Ich halte es manchmal für angebracht, nicht statistisch signifikante Ergebnisse im Sinne von "Akzeptiere die Nullhypothese" zu interpretieren. Tatsächlich habe ich statistisch signifikante Studien gesehen, die so interpretiert wurden. Die Studie war zu genau und die Ergebnisse stimmten mit einem engen Bereich von nicht null, aber klinisch unbedeutenden Effekten überein. Hier ist eine etwas krasse Kritik einer Studie (oder darüber hinaus ihrer Presse) über den Zusammenhang zwischen Schokoladen- / Rotweinkonsum und seiner "heilsamen" Wirkung auf Diabetes. Die Wahrscheinlichkeitskurven für Insulinresistenzverteilungen nach hoher / niedriger Aufnahme sind hysterisch.

Ob man die Ergebnisse als "Bestätigung von H_0" interpretieren kann, hängt von einer Vielzahl von Faktoren ab: der Validität der Studie, der Aussagekraft, der Unsicherheit der Schätzung und den vorherigen Nachweisen. Die Angabe des Konfidenzintervalls (CI) anstelle des p-Werts ist möglicherweise der nützlichste Beitrag, den Sie als Statistiker leisten können. Ich erinnere Forscher und andere Statistiker daran, dass Statistiken keine Entscheidungen treffen, die Menschen treffen. Das Weglassen von p-Werten regt zu einer gründlicheren Diskussion der Ergebnisse an.

Die Breite des CI beschreibt eine Reihe von Effekten, die die Null enthalten können oder nicht und die möglicherweise sehr klinisch signifikante Werte wie das lebensrettende Potenzial enthalten oder nicht. Ein enges CI bestätigt jedoch eine Art von Effekt; entweder der letztere Typ, der im wahrsten Sinne "signifikant" ist, oder der erstere, der die Null sein kann oder etwas, das der Null sehr nahe kommt.

Möglicherweise ist ein umfassenderes Verständnis der "Nullergebnisse" (und der Nulleffekte) erforderlich. Was ich in der Forschungszusammenarbeit enttäuschend finde, ist, wenn die Forscher nicht von vornherein angeben können, auf welche Effekte sie abzielen: Wenn eine Intervention zur Senkung des Blutdrucks gedacht ist, wie viele mmHg? Wenn ein Medikament zur Heilung von Krebs gedacht ist, wie viele Monate wird der Patient überleben? Jemand, der leidenschaftlich forscht und sich mit seinem Fach und seiner Wissenschaft beschäftigt, kann die erstaunlichsten Fakten über frühere Forschungen und das, was getan wurde, klappern.

In Ihrem Beispiel kann ich nicht anders, als zu bemerken, dass der p-Wert von 0,82 wahrscheinlich sehr nahe an der Null liegt. Daraus kann ich nur ableiten, dass das CI auf einem Nullwert zentriert ist. Was ich nicht weiß, ist, ob es klinisch signifikante Effekte umfasst. Wenn das CI sehr eng ist, ist die Interpretation meines Erachtens korrekt, aber die Daten unterstützen es nicht: Das wäre eine geringfügige Änderung. Im Gegensatz dazu liegt der zweite p-Wert von 0,22 relativ nahe an seiner Signifikanzschwelle (wie auch immer). Die Autoren interpretieren es dementsprechend als "kein Beweis für einen Unterschied", was einer Interpretation vom Typ "H_0 nicht ablehnen" entspricht. Was die Relevanz des Artikels betrifft, kann ich sehr wenig sagen. Ich hoffe, dass Sie in der Literatur stöbern und auffälligere Diskussionen über Studienergebnisse finden! Soweit Analysen,

AdamO
quelle
1
AdamO, ist die F- Statistik, die der Null am nächsten kommt, nicht gleich dem Mittelwert der F- Verteilung für einen gegebenen Freiheitsgrad von Zähler und Nenner? Ich denke, wenn überhaupt, impliziert eine F- Statistik in der Nähe von 0 einen allumfassenden Beweis der Gleichwertigkeit. In der Tat motiviert Wellek genau dies in den 2010 durchgeführten Tests statistischer Hypothesen auf Äquivalenz und Nichtunterlegenheit , Abschnitt 7.2 Test auf Äquivalenz von k Normalverteilungen, Seiten 221–225. Fk
Alexis
@Alexis Vielen Dank, dass Sie auf die Eigenschaften des F-Tests hingewiesen haben. Ohne die Freiheitsgrade zu kennen, fällt es mir schwer, den Test intelligent zu kommentieren. Vielleicht sollte ich die Antwort überarbeiten, um nur auf die Werte zu verweisen . In jedem Fall ist der Hauptpunkt meiner Antwort, dass wir die beiden Hypothesen μ = μ 0 und μ μ 0 nicht mit gleicher Intrige halten können: Eine davon ist immer wahr, daher macht Testen keinen Sinn. Wir müssen beschreibende Methoden anwenden, aber sie können mit einem Konfidenzintervall rigoros gemacht werden. pμ=μ0μμ0
AdamO
Natürlich! (und +1, wenn das nicht klar war) Aber im Ernst, Sie sollten sich mit Äquivalenztests abfinden: Sie sind in der klinischen Epidemiologie und Biostatistik entstanden (ein ehrenhaftes Erbe für dieses Gebiet!), sind jedoch von allgemeiner Bedeutung für die häufig auftretende Folgerung. :)
Alexis
1
@GermanDemidov Ich gehe in diesen Fragen eine harte Linie ein: Ich denke, komplizierte Analysen sollten nicht in Betracht gezogen werden, wenn ihre Auswirkungen nicht interpretiert werden können. Sie tun eine Interpretation haben. Survival Analysis 2nd ed von Hosmer, Lemeshow, May, enthält ein ganzes Kapitel (4) über die Interpretation der Cox-Modellausgabe. Der Mangel an Tests, wie Shapiro, wird am besten durch Diagramme behoben (dies schließt den Test selbst oft aus). Resampling-Statistiken bieten ein leistungsstarkes Mittel zur Berechnung von CIs unter einer Vielzahl von Modellierungsbedingungen, erfordern jedoch die korrekte Verwendung der Soundtheorie.
AdamO
3
In einem starren Inferenzgerüst gibt es kein "0,82 ist nahe an der Null", da der p-Wert eine Zufallszahl ist und sein bestimmtes Niveau irrelevant ist. Der p-Wert kann im absoluten Wert nicht groß oder klein sein. Ihr Niveau spielt nur eine Rolle in Bezug auf die vorher festgelegte Schwelle, eine Signifikanz . Sie vergleichen mit einem Schwellenwert und lehnen ihn basierend auf dem Ergebnis des Vergleichs ab oder lehnen H 0 nicht ab . αH0
Aksakal
12

Zum Titel Ihrer Frage: Wir akzeptieren die Nullhypothese niemals , da das Testen von nur Hinweise auf H 0 liefert (dh Schlussfolgerungen beziehen sich immer auf die Alternativhypothese, entweder Sie haben Hinweise auf H A gefunden oder Sie haben keine Hinweise gefunden) für H A ).H0H0HAHA

Wir können jedoch erkennen, dass es verschiedene Arten von Nullhypothesen gibt:

  • Sie haben wahrscheinlich einseitige Nullhypothesen der Form und H 0 : θ θ 0 kennengelerntH0:θθ0H0:θθ0

  • Sie haben wahrscheinlich zweiseitige Nullhypothesen (auch bekannt als zweiseitige Nullhypothesen ) der Form oder synonym H 0 : θ - θ 0 = 0 in dem Fall mit einer Stichprobe und H 0 kennengelernt : & thgr ; 1 = & thgr ; 2 oder synonym H 0 : & thgr; 1 - & thgr; 2 = 0H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0im Fall mit zwei Stichproben. Ich vermute, dass es bei dieser speziellen Form der Nullhypothese um Ihre Frage geht. Nach Reagle und Vinod bezeichne ich Nullhypothesen dieser Form als positivistische Nullhypothesen und mache dies mit der Notation . Positivistische Nullhypothesen liefern oder liefern keinen Beweis für einen Unterschied oder einen Beweis für eine Wirkung . Positivistische Nullhypothesen haben eine Omnibusform für k Gruppen: H + 0 : θ i = θ j ; für alles i , j { 1 , 2H0+kH0+:θi=θj; und  ich j .i,j{1,2,k};  and ij

  • Vielleicht lernen Sie gerade etwas über gemeinsame einseitige Nullhypothesen , die Nullhypothesen dieser Form im Fall einer Stichprobe und H 0 : | θ 1 - θ 2 | Δ in dem Fall mit zwei Stichproben, in dem Δ der minimale relevante Unterschied ist, den Sie von vornherein interessieren (dh Sie sagen, dass kleinere Unterschiede keine Rolle spielen). Nach Reagle und Vinod nenne ich wieder Nullhypothesen dieser FormH0:|θθ0|ΔH0:|θ1θ2|ΔΔ negativistische Nullhypothesen, und verdeutlichen Sie dies mit der Notation . Negativistische Nullhypothesen liefern Hinweise auf Äquivalenz (innerhalb von ± Δ ) oder auf das Fehlen eines Effekts (größer als | Δ | ). Negativistische Nullhypothesen haben eine Sammelform für k Gruppen: H - 0 : | θ i = θ j | Δ ; für alles i , j { 1 , 2 , k ;H0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k}; (Wellek, Kapitel 7) and ij

Die sehr coole Sache zu tun ist , kombinieren Tests für Differenz mit Tests für die Äquivalenz. Dies wird als Relevanztest bezeichnet und ordnet sowohl die statistische Aussagekraft als auch die Effektgröße explizit den Schlussfolgerungen zu, die aus einem Test gezogen wurden, wie in der Beschreibung des [tost]Tags beschrieben. Bedenken Sie: Wenn Sie ablehnen, liegt das daran, dass es einen echten Effekt einer Größe gibt, die Sie für relevant halten? Oder lag es daran, dass Ihre Stichprobe einfach so groß war, dass Ihr Test überlastet war? Und wenn Sie H + 0 nicht ablehnenH0+H0+Liegt das daran, dass es keinen echten Effekt gibt oder dass Ihre Stichprobengröße zu klein und Ihr Test zu schwach ist? Relevanztests adressieren diese Probleme direkt.

Es gibt einige Möglichkeiten, Äquivalenztests durchzuführen (unabhängig davon, ob einer mit Differenztests kombiniert wird oder nicht):

  • Zwei einseitige Tests (TOST) übersetzen die oben ausgesprochene allgemeine negativistische Nullhypothese in zwei spezifische einseitige Nullhypothesen:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Einheitlich leistungsstärkste Äquivalenztests, die in der Regel wesentlich ausgefeilter als TOST sind. Wellek ist die definitive Referenz für diese.
  • Ich glaube, ein Konfidenzintervall-Ansatz, der zuerst von Schuirman motiviert und von anderen, wie Tryon, verfeinert wurde.


Literaturhinweise Reagle, DP und Vinod, HD (2003). Inferenz für die negativistische Theorie unter Verwendung numerisch berechneter Zurückweisungsbereiche . Computational Statistics & Data Analysis , 42 (3): 491–512.

Schuirmann, DA (1987). Ein Vergleich der beiden einseitigen Testverfahren und des Power-Ansatzes zur Bewertung der Äquivalenz der durchschnittlichen Bioverfügbarkeit . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.

Tryon, WW und Lewis, C. (2008). Eine Inferenz-Konfidenzintervall-Methode zur Ermittlung der statistischen Äquivalenz zur Korrektur des Tryon-Reduktionsfaktors (2001) . Psychological Methods , 13 (3): 272–277.

Tryon, WW und Lewis, C. (2009). Bewertung unabhängiger Proportionen hinsichtlich statistischer Differenz, Äquivalenz, Unbestimmtheit und trivialer Differenz unter Verwendung von Konfidenzintervallen . Journal of Educational and Behavioral Statistics , 34 (2): 171–189.

Wellek, S. (2010). Testen statistischer Hypothesen von Äquivalenz und Nichtunterlegenheit . Chapman and Hall / CRC Press, zweite Auflage.

Alexis
quelle
1
Wer mich runtergestimmt hat, sollte ein Feedback dazu geben, warum: Es sollte klar sein, dass ich detaillierte Antworten gebe und auf Beiträge reagiere.
Alexis
9

Sie beziehen sich auf die Standard-Inferenzpraxis, die in Statistikkursen unterrichtet wird:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

Das ist in Ordnung und wird in der Praxis verwendet. Ich würde sogar vermuten, dass dieses Verfahren in einigen regulierten Branchen wie der Pharmaindustrie obligatorisch sein könnte.

Dies ist jedoch nicht die einzige Möglichkeit, Statistiken und Schlussfolgerungen in Forschung und Praxis anzuwenden. Schauen Sie sich zum Beispiel diesen Artikel an : "Beobachtung eines neuen Partikels bei der Suche nach dem Standardmodell des Higgs-Bosons mit dem ATLAS-Detektor am LHC". Die Arbeit präsentierte zuerst den Nachweis der Existenz von Higgs-Boson im sogenannten ATLAS-Experiment. Es war auch eines dieser Papiere, in denen die Liste der Autoren so lang ist wie der eigentliche Inhalt :)

  • H0HaH0
  • ασ
  • α
  • Sie zeigen Konfidenzintervalle mit üblichen Konfidenzniveaus wie 95%.

Die Schlussfolgerung lautet wie folgt: "Diese Ergebnisse liefern schlüssige Beweise für die Entdeckung eines neuen Teilchens mit einer Masse von 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Die Wörter "stat" beziehen sich auf statistische und "sys" auf systematische Unsicherheiten.

Wie Sie sehen, führt nicht jeder die vier Schritte aus, die ich zu Beginn dieser Antwort beschrieben habe. Hier zeigen die Forscher den p-Wert, ohne die Schwelle vorher festzulegen, im Gegensatz zu dem, was in Statistikklassen gelehrt wird. Zweitens lehnen sie Tanz nicht ab, zumindest formal. Sie kommen auf den Punkt und sagen: "Hier ist der p-Wert. Deshalb haben wir ein neues Teilchen mit einer Masse von 126 GeV gefunden."

Wichtige Notiz

Die Autoren des Higgs-Papers haben das Higgs-Boson noch nicht deklariert. Sie behaupteten nur, dass das neue Teilchen gefunden wurde und dass einige seiner Eigenschaften wie eine Masse mit dem Higgs-Boson übereinstimmen.

Es dauerte ein paar Jahre, um zusätzliche Beweise zu sammeln, bevor sich herausstellte, dass es sich bei dem Partikel tatsächlich um das Higgs-Boson handelt. Siehe diesen Blog-Beitrag mit einer frühen Diskussion der Ergebnisse. Die Physiker überprüften verschiedene Eigenschaften wie den Null-Spin. Und während die Beweise irgendwann gesammelt wurden, erklärte das CERN, dass es sich bei dem Partikel um Higgs-Boson handelt.

Warum ist das wichtig? Weil es unmöglich ist, den wissenschaftlichen Entdeckungsprozess auf ein starres statistisches Inferenzverfahren zu trivialisieren. Statistische Inferenz ist nur ein Werkzeug.

Als das CERN nach diesem Teilchen suchte, lag der Fokus darauf, es zuerst zu finden. Es war das ultimative Ziel. Der Physiker hatte eine Idee, wohin er schauen sollte. Sobald sie einen Kandidaten gefunden hatten, konzentrierten sie sich darauf, zu beweisen, dass es der richtige ist. Schließlich hat die Gesamtheit der Beweise, nicht ein einziges Experiment mit p-Wert und Signifikanz, alle davon überzeugt , dass wir das Teilchen gefunden haben. Nehmen Sie hier alle Vorkenntnisse und das Standardmodell auf . Dies ist nicht nur eine statistische Folgerung, die wissenschaftliche Methode ist umfassender.

Aksakal
quelle
Wow, deine Antwort ist großartig! Das ist ein wirklich gutes Beispiel. Ich hoffe, dass in maximal 10 Jahren auch Lebenswissenschaftler zu diesem Berichtsstil kommen werden!
Deutsch Demidov
5

Es gibt Methoden, die sich nicht auf die Leistungsberechnung stützen (siehe Wellek, 2010). Insbesondere können Sie auch testen, ob Sie die Null ablehnen, dass der Effekt von vornherein von Bedeutung ist.

Daniël Lakens befürwortet in dieser Situation die Prüfung der Gleichwertigkeit. Insbesondere Lakens verwendet " TOST " (zwei einseitige Tests) für Mittelwertvergleiche, aber es gibt auch andere Möglichkeiten, um auf die gleiche Idee zu kommen.

In TOST testen Sie eine zusammengesetzte Null: Die einseitige Null-Hypothese, dass Ihr Effekt negativer ist als der kleinste negative interessierende Unterschied, und die Null, dass Ihr Effekt positiver ist als der kleinste positive interessierende Unterschied. Wenn Sie beide ablehnen, können Sie behaupten, dass es keinen bedeutenden Unterschied gibt. Beachten Sie, dass dies auch dann passieren kann, wenn der Effekt erheblich von Null abweicht, aber in keinem Fall eine Bestätigung der Null erforderlich ist.

Lakens, D. (2017). Äquivalenztests: Ein praktischer Leitfaden für t- Tests, Korrelationen und Metaanalysen . Sozialpsychologie und Persönlichkeitswissenschaft , 8 (4), 355-362.

Wellek, S. (2010). Testen statistischer Hypothesen von Äquivalenz und Nichtunterlegenheit . Chapman and Hall / CRC Press, zweite Auflage.

Patrick Malone
quelle