Dies ist eine Diskussionsfrage zum Schnittpunkt von Statistik und anderen Wissenschaften. Ich stehe oft vor dem gleichen Problem: Forscher auf meinem Gebiet neigen dazu zu sagen, dass es keinen Effekt gibt, wenn der p-Wert nicht unter dem Signifikanzniveau liegt. Anfangs habe ich oft geantwortet, dass dies nicht die Funktionsweise von Hypothesentests ist. Angesichts der Häufigkeit dieser Frage möchte ich dieses Thema mit erfahrenen Statistikern diskutieren.
Betrachten wir einen kürzlich erschienenen Artikel in einer wissenschaftlichen Zeitschrift der „Best Publishing Group“ Nature Communications Biology (es gibt mehrere Beispiele, aber konzentrieren wir uns auf eines).
Forscher interpretieren ein nicht statistisch signifikantes Ergebnis folgendermaßen:
Eine chronische Einschränkung der Kalorienzufuhr kann somit die Lebensdauer verlängern und die Gesundheit eines Primaten verbessern, beeinträchtigt jedoch die Integrität der grauen Hirnsubstanz, ohne die kognitiven Leistungen zu beeinträchtigen .
Beweis:
Die Leistungen in der Barnes-Labyrinthaufgabe unterschieden sich jedoch nicht zwischen Kontroll- und kalorienreduzierten Tieren (LME: F = 0,05, p = 0,82; Fig. 2a). In ähnlicher Weise zeigte die spontane Wechselaufgabe keinen Unterschied zwischen Kontroll- und kalorienreduzierten Tieren (LME: F = 1,63, p = 0,22; 2b).
Die Autoren schlagen auch die Erklärung des Fehlens des Effekts vor - aber der entscheidende Punkt ist nicht die Erklärung, sondern die Behauptung selbst. Die zur Verfügung gestellten Darstellungen sehen für mich "auf den ersten Blick" deutlich anders aus (Abbildung 2).
Darüber hinaus ignorieren die Autoren die Vorkenntnisse:
Für Ratten sowie für zerebrale und emotionale Funktionen beim Menschen wurden schädliche Auswirkungen einer Kalorieneinschränkung auf die kognitive Leistung berichtet
Ich kann die gleiche Behauptung für die riesigen Stichprobengrößen verstehen (kein Effekt = kein praktisch signifikanter Effekt), aber in bestimmten Situationen wurden komplexe Tests verwendet und es ist für mich nicht offensichtlich, wie man Leistungsberechnungen durchführt.
Fragen:
Habe ich irgendwelche Details übersehen, die ihre Schlussfolgerungen bestätigen?
In Anbetracht der Notwendigkeit, negative Ergebnisse in der Wissenschaft zu melden , kann der Nachweis erbracht werden, dass es sich nicht um "das Fehlen von Ergebnissen" handelt (das wir mit ), sondern um ein negatives Ergebnis (z. B. gibt es keinen Unterschied zwischen Gruppen). Statistiken verwenden? Ich verstehe, dass bei großen Stichprobengrößen selbst kleine Abweichungen von Null eine Zurückweisung verursachen. Nehmen wir jedoch an, dass wir über ideale Daten verfügen und weiterhin nachweisen müssen, dass Null praktisch zutrifft.
Sollten Statistiker immer auf mathematisch korrekten Schlussfolgerungen bestehen wie "Mit dieser Fähigkeit konnten wir keine Auswirkungen von signifikanter Größe feststellen"? Forscher aus anderen Bereichen lehnen solche Formulierungen negativer Ergebnisse stark ab.
Ich würde mich über Gedanken zu dem Problem freuen und habe verwandte Fragen auf dieser Website gelesen und verstanden. Die Fragen 2) -3) sind aus statistischer Sicht eindeutig zu beantworten, aber ich möchte verstehen, wie diese Fragen im Falle eines interdisziplinären Dialogs zu beantworten sind.
UPD: Ich denke, ein gutes Beispiel für ein negatives Ergebnis ist die erste Stufe der medizinischen Prüfungen, die Sicherheit. Wann können Wissenschaftler entscheiden, dass das Medikament sicher ist? Ich denke, sie vergleichen zwei Gruppen und machen Statistiken über diese Daten. Gibt es eine Möglichkeit zu sagen, dass dieses Medikament sicher ist? Cochrane verwendet genaue "keine Nebenwirkungen gefunden wurden", aber die Ärzte sagen, dass dieses Medikament sicher ist. Wenn das Gleichgewicht zwischen Genauigkeit und Einfachheit der Beschreibung stimmt und wir sagen können, dass es keine Konsequenzen für die Gesundheit gibt?
quelle
Antworten:
Ich halte es manchmal für angebracht, nicht statistisch signifikante Ergebnisse im Sinne von "Akzeptiere die Nullhypothese" zu interpretieren. Tatsächlich habe ich statistisch signifikante Studien gesehen, die so interpretiert wurden. Die Studie war zu genau und die Ergebnisse stimmten mit einem engen Bereich von nicht null, aber klinisch unbedeutenden Effekten überein. Hier ist eine etwas krasse Kritik einer Studie (oder darüber hinaus ihrer Presse) über den Zusammenhang zwischen Schokoladen- / Rotweinkonsum und seiner "heilsamen" Wirkung auf Diabetes. Die Wahrscheinlichkeitskurven für Insulinresistenzverteilungen nach hoher / niedriger Aufnahme sind hysterisch.
Ob man die Ergebnisse als "Bestätigung von H_0" interpretieren kann, hängt von einer Vielzahl von Faktoren ab: der Validität der Studie, der Aussagekraft, der Unsicherheit der Schätzung und den vorherigen Nachweisen. Die Angabe des Konfidenzintervalls (CI) anstelle des p-Werts ist möglicherweise der nützlichste Beitrag, den Sie als Statistiker leisten können. Ich erinnere Forscher und andere Statistiker daran, dass Statistiken keine Entscheidungen treffen, die Menschen treffen. Das Weglassen von p-Werten regt zu einer gründlicheren Diskussion der Ergebnisse an.
Die Breite des CI beschreibt eine Reihe von Effekten, die die Null enthalten können oder nicht und die möglicherweise sehr klinisch signifikante Werte wie das lebensrettende Potenzial enthalten oder nicht. Ein enges CI bestätigt jedoch eine Art von Effekt; entweder der letztere Typ, der im wahrsten Sinne "signifikant" ist, oder der erstere, der die Null sein kann oder etwas, das der Null sehr nahe kommt.
Möglicherweise ist ein umfassenderes Verständnis der "Nullergebnisse" (und der Nulleffekte) erforderlich. Was ich in der Forschungszusammenarbeit enttäuschend finde, ist, wenn die Forscher nicht von vornherein angeben können, auf welche Effekte sie abzielen: Wenn eine Intervention zur Senkung des Blutdrucks gedacht ist, wie viele mmHg? Wenn ein Medikament zur Heilung von Krebs gedacht ist, wie viele Monate wird der Patient überleben? Jemand, der leidenschaftlich forscht und sich mit seinem Fach und seiner Wissenschaft beschäftigt, kann die erstaunlichsten Fakten über frühere Forschungen und das, was getan wurde, klappern.
In Ihrem Beispiel kann ich nicht anders, als zu bemerken, dass der p-Wert von 0,82 wahrscheinlich sehr nahe an der Null liegt. Daraus kann ich nur ableiten, dass das CI auf einem Nullwert zentriert ist. Was ich nicht weiß, ist, ob es klinisch signifikante Effekte umfasst. Wenn das CI sehr eng ist, ist die Interpretation meines Erachtens korrekt, aber die Daten unterstützen es nicht: Das wäre eine geringfügige Änderung. Im Gegensatz dazu liegt der zweite p-Wert von 0,22 relativ nahe an seiner Signifikanzschwelle (wie auch immer). Die Autoren interpretieren es dementsprechend als "kein Beweis für einen Unterschied", was einer Interpretation vom Typ "H_0 nicht ablehnen" entspricht. Was die Relevanz des Artikels betrifft, kann ich sehr wenig sagen. Ich hoffe, dass Sie in der Literatur stöbern und auffälligere Diskussionen über Studienergebnisse finden! Soweit Analysen,
quelle
Zum Titel Ihrer Frage: Wir akzeptieren die Nullhypothese niemals , da das Testen von nur Hinweise auf H 0 liefert (dh Schlussfolgerungen beziehen sich immer auf die Alternativhypothese, entweder Sie haben Hinweise auf H A gefunden oder Sie haben keine Hinweise gefunden) für H A ).H0 H0 HA HA
Wir können jedoch erkennen, dass es verschiedene Arten von Nullhypothesen gibt:
Sie haben wahrscheinlich einseitige Nullhypothesen der Form und H 0 : θ ≤ θ 0 kennengelerntH0:θ≥θ0 H0:θ≤θ0
Sie haben wahrscheinlich zweiseitige Nullhypothesen (auch bekannt als zweiseitige Nullhypothesen ) der Form oder synonym H 0 : θ - θ 0 = 0 in dem Fall mit einer Stichprobe und H 0 kennengelernt : & thgr ; 1 = & thgr ; 2 oder synonym H 0 : & thgr; 1 - & thgr; 2 = 0H0:θ=θ0 H0:θ−θ0=0 H0:θ1=θ2 H0:θ1−θ2=0 im Fall mit zwei Stichproben. Ich vermute, dass es bei dieser speziellen Form der Nullhypothese um Ihre Frage geht. Nach Reagle und Vinod bezeichne ich Nullhypothesen dieser Form als positivistische Nullhypothesen und mache dies mit der Notation . Positivistische Nullhypothesen liefern oder liefern keinen Beweis für einen Unterschied oder einen Beweis für eine Wirkung . Positivistische Nullhypothesen haben eine Omnibusform für k Gruppen: H + 0 : θ i = θ j ; für alles i , j ∈ { 1 , 2H+0 k H+0:θi=θj; und ich ≠ j .i,j∈{1,2,…k}; and i≠j
Vielleicht lernen Sie gerade etwas über gemeinsame einseitige Nullhypothesen , die Nullhypothesen dieser Form im Fall einer Stichprobe und H 0 : | θ 1 - θ 2 | ≥ Δ in dem Fall mit zwei Stichproben, in dem Δ der minimale relevante Unterschied ist, den Sie von vornherein interessieren (dh Sie sagen, dass kleinere Unterschiede keine Rolle spielen). Nach Reagle und Vinod nenne ich wieder Nullhypothesen dieser FormH0:|θ−θ0|≥Δ H0:|θ1−θ2|≥Δ Δ negativistische Nullhypothesen, und verdeutlichen Sie dies mit der Notation . Negativistische Nullhypothesen liefern Hinweise auf Äquivalenz (innerhalb von ± Δ ) oder auf das Fehlen eines Effekts (größer als | Δ | ). Negativistische Nullhypothesen haben eine Sammelform für k Gruppen: H - 0 : | θ i = θ j | ≥ Δ ; für alles i , j ∈ { 1 , 2 , … k ;H−0 ±Δ |Δ| k H−0:|θi=θj|≥Δ; i,j∈{1,2,…k}; (Wellek, Kapitel 7) and i≠j
Die sehr coole Sache zu tun ist , kombinieren Tests für Differenz mit Tests für die Äquivalenz. Dies wird als Relevanztest bezeichnet und ordnet sowohl die statistische Aussagekraft als auch die Effektgröße explizit den Schlussfolgerungen zu, die aus einem Test gezogen wurden, wie in der Beschreibung desH+0 H+0 Liegt das daran, dass es keinen echten Effekt gibt oder dass Ihre Stichprobengröße zu klein und Ihr Test zu schwach ist? Relevanztests adressieren diese Probleme direkt.
[tost]
Tags beschrieben. Bedenken Sie: Wenn Sie ablehnen, liegt das daran, dass es einen echten Effekt einer Größe gibt, die Sie für relevant halten? Oder lag es daran, dass Ihre Stichprobe einfach so groß war, dass Ihr Test überlastet war? Und wenn Sie H + 0 nicht ablehnenEs gibt einige Möglichkeiten, Äquivalenztests durchzuführen (unabhängig davon, ob einer mit Differenztests kombiniert wird oder nicht):
Literaturhinweise Reagle, DP und Vinod, HD (2003). Inferenz für die negativistische Theorie unter Verwendung numerisch berechneter Zurückweisungsbereiche . Computational Statistics & Data Analysis , 42 (3): 491–512.
Schuirmann, DA (1987). Ein Vergleich der beiden einseitigen Testverfahren und des Power-Ansatzes zur Bewertung der Äquivalenz der durchschnittlichen Bioverfügbarkeit . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.
Tryon, WW und Lewis, C. (2008). Eine Inferenz-Konfidenzintervall-Methode zur Ermittlung der statistischen Äquivalenz zur Korrektur des Tryon-Reduktionsfaktors (2001) . Psychological Methods , 13 (3): 272–277.
Tryon, WW und Lewis, C. (2009). Bewertung unabhängiger Proportionen hinsichtlich statistischer Differenz, Äquivalenz, Unbestimmtheit und trivialer Differenz unter Verwendung von Konfidenzintervallen . Journal of Educational and Behavioral Statistics , 34 (2): 171–189.
Wellek, S. (2010). Testen statistischer Hypothesen von Äquivalenz und Nichtunterlegenheit . Chapman and Hall / CRC Press, zweite Auflage.
quelle
Sie beziehen sich auf die Standard-Inferenzpraxis, die in Statistikkursen unterrichtet wird:
Das ist in Ordnung und wird in der Praxis verwendet. Ich würde sogar vermuten, dass dieses Verfahren in einigen regulierten Branchen wie der Pharmaindustrie obligatorisch sein könnte.
Dies ist jedoch nicht die einzige Möglichkeit, Statistiken und Schlussfolgerungen in Forschung und Praxis anzuwenden. Schauen Sie sich zum Beispiel diesen Artikel an : "Beobachtung eines neuen Partikels bei der Suche nach dem Standardmodell des Higgs-Bosons mit dem ATLAS-Detektor am LHC". Die Arbeit präsentierte zuerst den Nachweis der Existenz von Higgs-Boson im sogenannten ATLAS-Experiment. Es war auch eines dieser Papiere, in denen die Liste der Autoren so lang ist wie der eigentliche Inhalt :)
Die Schlussfolgerung lautet wie folgt: "Diese Ergebnisse liefern schlüssige Beweise für die Entdeckung eines neuen Teilchens mit einer Masse von 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Die Wörter "stat" beziehen sich auf statistische und "sys" auf systematische Unsicherheiten.
Wie Sie sehen, führt nicht jeder die vier Schritte aus, die ich zu Beginn dieser Antwort beschrieben habe. Hier zeigen die Forscher den p-Wert, ohne die Schwelle vorher festzulegen, im Gegensatz zu dem, was in Statistikklassen gelehrt wird. Zweitens lehnen sie Tanz nicht ab, zumindest formal. Sie kommen auf den Punkt und sagen: "Hier ist der p-Wert. Deshalb haben wir ein neues Teilchen mit einer Masse von 126 GeV gefunden."
Wichtige Notiz
Die Autoren des Higgs-Papers haben das Higgs-Boson noch nicht deklariert. Sie behaupteten nur, dass das neue Teilchen gefunden wurde und dass einige seiner Eigenschaften wie eine Masse mit dem Higgs-Boson übereinstimmen.
Es dauerte ein paar Jahre, um zusätzliche Beweise zu sammeln, bevor sich herausstellte, dass es sich bei dem Partikel tatsächlich um das Higgs-Boson handelt. Siehe diesen Blog-Beitrag mit einer frühen Diskussion der Ergebnisse. Die Physiker überprüften verschiedene Eigenschaften wie den Null-Spin. Und während die Beweise irgendwann gesammelt wurden, erklärte das CERN, dass es sich bei dem Partikel um Higgs-Boson handelt.
Warum ist das wichtig? Weil es unmöglich ist, den wissenschaftlichen Entdeckungsprozess auf ein starres statistisches Inferenzverfahren zu trivialisieren. Statistische Inferenz ist nur ein Werkzeug.
Als das CERN nach diesem Teilchen suchte, lag der Fokus darauf, es zuerst zu finden. Es war das ultimative Ziel. Der Physiker hatte eine Idee, wohin er schauen sollte. Sobald sie einen Kandidaten gefunden hatten, konzentrierten sie sich darauf, zu beweisen, dass es der richtige ist. Schließlich hat die Gesamtheit der Beweise, nicht ein einziges Experiment mit p-Wert und Signifikanz, alle davon überzeugt , dass wir das Teilchen gefunden haben. Nehmen Sie hier alle Vorkenntnisse und das Standardmodell auf . Dies ist nicht nur eine statistische Folgerung, die wissenschaftliche Methode ist umfassender.
quelle
Es gibt Methoden, die sich nicht auf die Leistungsberechnung stützen (siehe Wellek, 2010). Insbesondere können Sie auch testen, ob Sie die Null ablehnen, dass der Effekt von vornherein von Bedeutung ist.
Daniël Lakens befürwortet in dieser Situation die Prüfung der Gleichwertigkeit. Insbesondere Lakens verwendet " TOST " (zwei einseitige Tests) für Mittelwertvergleiche, aber es gibt auch andere Möglichkeiten, um auf die gleiche Idee zu kommen.
In TOST testen Sie eine zusammengesetzte Null: Die einseitige Null-Hypothese, dass Ihr Effekt negativer ist als der kleinste negative interessierende Unterschied, und die Null, dass Ihr Effekt positiver ist als der kleinste positive interessierende Unterschied. Wenn Sie beide ablehnen, können Sie behaupten, dass es keinen bedeutenden Unterschied gibt. Beachten Sie, dass dies auch dann passieren kann, wenn der Effekt erheblich von Null abweicht, aber in keinem Fall eine Bestätigung der Null erforderlich ist.
Lakens, D. (2017). Äquivalenztests: Ein praktischer Leitfaden für t- Tests, Korrelationen und Metaanalysen . Sozialpsychologie und Persönlichkeitswissenschaft , 8 (4), 355-362.
Wellek, S. (2010). Testen statistischer Hypothesen von Äquivalenz und Nichtunterlegenheit . Chapman and Hall / CRC Press, zweite Auflage.
quelle