Eine grundlegende Einschränkung der Signifikanzprüfung von Nullhypothesen besteht darin, dass ein Forscher keine Beweise für die Null sammeln kann ( Quelle ).
Ich sehe diese Behauptung an mehreren Stellen wiederholt, aber ich kann keine Rechtfertigung dafür finden. Wenn wir eine große Studie durchführen und keine statistisch signifikanten Beweise für die Nullhypothese finden , ist das nicht ein Beweis für die Nullhypothese?
hypothesis-testing
Atte Juvonen
quelle
quelle
Antworten:
Eine Nullhypothese verworfen Andernfalls ist Beweis dafür , dass die Nullhypothese wahr ist, aber es ist vielleicht nicht besonders sein guter Beweis, und es ist sicherlich nicht beweist die Nullhypothese.
Machen wir einen kurzen Umweg. Betrachten Sie für einen Moment das alte Klischee:
Ungeachtet seiner Popularität ist diese Aussage Unsinn. Wenn Sie nach etwas suchen und es nicht finden, ist das ein absoluter Beweis dafür, dass es nicht da ist. Wie gut diese Beweise sind, hängt davon ab, wie gründlich Ihre Suche war. Eine flüchtige Suche liefert schwache Beweise; eine erschöpfende Suche liefert starke Beweise.
Nun zurück zum Testen der Hypothese. Wenn Sie einen Hypothesentest durchführen, suchen Sie nach Beweisen dafür, dass die Nullhypothese nicht wahr ist. Wenn Sie es nicht finden, dann ist das sicherlich ein Beweis dafür, dass die Nullhypothese wahr ist , aber wie stark ist dieser Beweis? Um das zu wissen, müssen Sie wissen, wie wahrscheinlich es ist, dass Beweise, die Sie dazu gebracht hätten, die Nullhypothese abzulehnen, Ihrer Suche entgangen sein könnten. Das heißt, wie hoch ist die Wahrscheinlichkeit eines falsch negativen Ergebnisses bei Ihrem Test? Dies ist auf die Leistung bezogen, , des Tests (insbesondere ist das Komplement, 1- ) .ββ β
Die Stärke des Tests und damit die Rate der falsch negativen Ergebnisse hängt normalerweise von der Größe des gewünschten Effekts ab. Große Effekte sind leichter zu erkennen als kleine. Daher gibt es keine einzelne für ein Experiment und daher keine endgültige Antwort auf die Frage, wie stark die Beweise für die Nullhypothese sind. Anders ausgedrückt, es gibt immer einen Effekt, der so klein ist, dass das Experiment dies nicht ausschließt.β
Von hier aus gibt es zwei Möglichkeiten, um fortzufahren. Manchmal wissen Sie, dass Sie sich nicht für eine Effektgröße interessieren, die unter einem bestimmten Schwellenwert liegt. In diesem Fall sollten Sie Ihr Experiment wahrscheinlich so umgestalten, dass die Nullhypothese lautet, dass der Effekt über diesem Schwellenwert liegt, und dann die Alternativhypothese testen, dass der Effekt unter dem Schwellenwert liegt. Alternativ können Sie Ihre Ergebnisse verwenden, um Grenzen für die glaubwürdige Größe des Effekts festzulegen. Ihre Schlussfolgerung wäre, dass die Größe des Effekts mit einiger Wahrscheinlichkeit in einem Intervall liegt. Dieser Ansatz ist nur einen kleinen Schritt von einer Bayes'schen Behandlung entfernt, über die Sie möglicherweise mehr erfahren möchten, wenn Sie sich häufig in einer solchen Situation befinden.
Es gibt eine nette Antwort auf eine verwandte Frage, die Hinweise auf Abwesenheitstests berührt , die Sie vielleicht nützlich finden.
quelle
NHST stützt sich auf p-Werte, die uns sagen: Wenn die Nullhypothese wahr ist, wie hoch ist die Wahrscheinlichkeit, dass wir unsere Daten (oder extremere Daten) beobachten?
Wir gehen davon aus, dass die Nullhypothese wahr ist - es ist in NHST verankert, dass die Nullhypothese zu 100% korrekt ist. Kleine p-Werte sagen uns, dass unsere Daten (oder extremere Daten) unwahrscheinlich sind, wenn die Nullhypothese wahr ist.
Aber was sagt uns ein großer p-Wert? Es sagt uns, dass angesichts der Nullhypothese unsere Daten (oder extremere Daten) wahrscheinlich sind.
Im Allgemeinen gilt P (A | B) ≠ P (B | A).
Stellen Sie sich vor, Sie möchten einen großen p-Wert als Beweis für die Nullhypothese verwenden. Sie würden sich auf diese Logik verlassen:
Wenn die Null wahr ist, ist ein hoher p-Wert wahrscheinlich.( Update: Nicht wahr. Siehe Kommentare unten. )Dies nimmt die allgemeinere Form an:
Dies ist jedoch trügerisch, wie ein Beispiel zeigt:
Der Boden könnte sehr gut nass sein, weil es geregnet hat. Oder es könnte an einer Sprinkleranlage liegen, jemand hat seine Dachrinnen gereinigt, eine Wasserleitung ist kaputt usw. Weitere Beispiele finden Sie im obigen Link.
Es ist ein sehr schwer zu verstehendes Konzept. Wenn wir Beweise für die Null wollen, ist eine bayesianische Folgerung erforderlich. Die für mich am leichtesten zugängliche Erklärung dieser Logik ist von Rouder et al. (2016). in paper Gibt es ein kostenloses Mittagessen in Inference? veröffentlicht in Topics in Cognitive Science, 8, S. 520–547.
quelle
Um zu verstehen, was an der Annahme falsch ist, sehen Sie sich das folgende Beispiel an:
Stellen Sie sich ein Gehege in einem Zoo vor, in dem Sie die Bewohner nicht sehen können. Sie möchten die Hypothese, dass es von Affen bewohnt wird, testen, indem Sie eine Banane in den Käfig legen und prüfen, ob sie am nächsten Tag verschwunden ist. Dies wird N-mal wiederholt, um die statistische Signifikanz zu verbessern.
Nun können Sie eine Nullhypothese formulieren: Angesichts der Tatsache, dass sich Affen im Gehege befinden, ist es sehr wahrscheinlich, dass sie die Banane finden und essen. Wenn die Bananen also jeden Tag unberührt bleiben, ist es sehr unwahrscheinlich, dass sich Affen im Gehege befinden.
Aber jetzt sehen Sie, dass die Bananen (fast) jeden Tag weg sind. Sagt Ihnen das, dass Affen drinnen sind?
Natürlich nicht, denn es gibt auch andere Tiere, die Bananen mögen, oder vielleicht entfernt ein aufmerksamer Tierpfleger die Banane jeden Abend.
Also, was ist der Fehler, der in dieser Logik gemacht wird? Der Punkt ist, dass Sie nichts über die Wahrscheinlichkeit wissen, dass Bananen weg sind, wenn sich keine Affen darin befinden. Um die Nullhypothese zu bestätigen, muss die Wahrscheinlichkeit des Verschwindens von Bananen gering sein, wenn die Nullhypothese falsch ist, dies muss jedoch nicht der Fall sein. In der Tat kann das Ereignis gleich wahrscheinlich (oder sogar wahrscheinlicher) sein, wenn die Nullhypothese falsch ist.
Ohne diese Wahrscheinlichkeit zu kennen, kann man über die Gültigkeit der Nullhypothese nichts genaues sagen. Wenn Tierpfleger jeden Abend alle Bananen entfernen, ist das Experiment völlig wertlos, obwohl Sie auf den ersten Blick die Nullhypothese bestätigt haben.
quelle
In seinem berühmten Aufsatz Why Most Published Research Findings Are False ( Warum die meisten veröffentlichten Forschungsergebnisse falsch sind) verwendete Ioannidis Bayesianisches Denken und den Basisraten-Irrtum, um zu argumentieren, dass die meisten Ergebnisse falsch positiv sind. Kurz gesagt, die Wahrscheinlichkeit nach dem Studium, dass eine bestimmte Forschungshypothese zutrifft, hängt unter anderem von der Wahrscheinlichkeit vor dem Studium dieser Hypothese ab (dh von der Basisrate).
Als Reaktion darauf haben Moonesinghe et al. (2007) verwendeten dasselbe Framework, um zu zeigen, dass die Replikation die Wahrscheinlichkeit, dass eine Hypothese wahr ist, nach dem Studium erheblich erhöht. Dies ist sinnvoll: Wenn mehrere Studien einen bestimmten Befund replizieren können, sind wir sicherer, dass die vermutete Hypothese wahr ist.
Die Grafik zeigt, dass, wenn mindestens 5 von 10 Studien die Signifikanz nicht erreichen, unsere Wahrscheinlichkeit nach dem Studium, dass die Hypothese wahr ist, fast 0 beträgt. Für mehr Studien bestehen dieselben Beziehungen. Diese Feststellung macht auch intuitiv Sinn: Ein wiederholtes Versäumnis, einen Effekt zu finden, stärkt unsere Überzeugung, dass der Effekt höchstwahrscheinlich falsch ist. Diese Argumentation stimmt mit der akzeptierten Antwort von @RPL überein.
Als zweites Szenario nehmen wir an, dass die Studien nur eine Potenz von 50% haben (alle anderen sind gleich).
Jetzt sinkt unsere Wahrscheinlichkeit nach dem Studium langsamer, da jede Studie nur eine geringe Leistung hatte, um den Effekt zu finden, falls er tatsächlich existierte.
quelle
If you have a negative, you found evidence against the null
- Was? Das Wort "negativ" hat genau die entgegengesetzte Bedeutung. Ein signifikanter p-Wert wird als "positives" Ergebnis bezeichnet. ein nicht signifikantes ist ein "negatives".Die beste Erklärung, die ich dafür gesehen habe, ist von jemandem, der eine Ausbildung in Mathematik hat.
quelle
Wenn Sie diese Konsequenz des Hypothesentests nicht mögen, aber nicht bereit sind, den vollen Sprung zu Bayes'schen Methoden zu machen, wie wäre es dann mit einem Konfidenzintervall?
quelle
Es wäre vielleicht besser zu sagen, dass die Nicht-Zurückweisung einer Nullhypothese an sich kein Beweis für die Nullhypothese ist. Wenn wir die volle Wahrscheinlichkeit der Daten betrachten, wobei die Datenmenge genauer berücksichtigt wird, können die gesammelten Daten die Parameter unterstützen, die unter die Nullhypothese fallen.
Wir sollten jedoch auch sorgfältig über unsere Hypothesen nachdenken. Insbesondere ist das Versäumnis, eine Punkt-Null-Hypothese abzulehnen, kein sehr guter Beweis dafür, dass die Punkt-Null-Hypothese wahr ist. Realistisch gesehen sammelt es Beweise dafür, dass der wahre Wert des Parameters nicht so weit vom fraglichen Punkt entfernt ist. Punkt-Null-Hypothesen sind in gewissem Maße eher künstliche Konstrukte, und in den meisten Fällen glauben Sie nicht wirklich, dass sie genau zutreffen werden.
Es wird viel vernünftiger, über die Nicht-Zurückweisung zu sprechen, die die Nullhypothese stützt, wenn Sie die Nullhypothese und die Alternativhypothese sinnvoll umkehren können und wenn Sie dabei Ihre neue Nullhypothese zurückweisen würden. Wenn Sie dies mit einer Standard-Punkt-Null-Hypothese versuchen, werden Sie sofort feststellen, dass Sie es niemals schaffen werden, ihr Komplement abzulehnen, da dann Ihre invertierte Null-Hypothese Werte enthält, die beliebig nahe am betrachteten Punkt liegen.
quelle
Es hängt vielmehr davon ab, wie Sie die Sprache verwenden. Nach der Entscheidungstheorie von Pearson und Neyman ist dies kein Beweis für die Null, aber Sie müssen sich so verhalten, als ob die Null wahr ist.
Die Schwierigkeit ergibt sich aus dem Modus Tollens. Bayes'sche Methoden sind eine Form des induktiven Denkens und als solche eine Form des unvollständigen Denkens. Nullhypothesenmethoden sind eine probabilistische Form des Modus Tollens und als solche Teil des deduktiven Denkens und daher eine vollständige Form des Denkens.
Modus tollens hat die Form "Wenn A wahr ist, dann ist B wahr und B ist nicht wahr; daher ist A nicht wahr." In dieser Form wäre es, wenn die Null wahr wäre, dann würden die Daten auf eine bestimmte Art und Weise erscheinen, sie würden nicht auf diese Art und Weise erscheinen, daher ist die Null (bis zu einem gewissen Grad des Vertrauens) nicht wahr (oder wird zumindest "gefälscht") . "
Das Problem ist, dass Sie "Wenn A, dann B und B." Daraus möchten Sie auf A schließen, aber das ist nicht gültig. "Wenn A dann B" schließt nicht aus, dass "wenn nicht A dann B" auch eine gültige Aussage ist. Betrachten Sie die Aussage "Wenn es ein Bär ist, dann kann er schwimmen. Es ist ein Fisch (kein Bär)." Die Aussagen sagen nichts über die Schwimmfähigkeit von Nichtbären aus.
Wahrscheinlichkeit und Statistik sind ein Zweig der Rhetorik und kein Zweig der Mathematik. Es ist ein starker Benutzer von Mathematik, aber kein Teil von Mathematik. Es existiert aus einer Vielzahl von Gründen, Überzeugung, Entscheidungsfindung oder Schlussfolgerung. Es erweitert die Rhetorik in eine disziplinierte Diskussion der Beweise.
quelle
Ich werde versuchen, dies mit einem Beispiel zu veranschaulichen.
quelle
quelle
Folgen wir einem einfachen Beispiel.
Meine Nullhypothese ist, dass meine Daten einer Normalverteilung folgen. Die alternative Hypothese ist, dass die Verteilung für meine Daten nicht normal ist.
Ich ziehe zwei Zufallsstichproben aus einer Gleichverteilung auf [0,1]. Mit nur zwei Stichproben kann ich nicht viel anfangen, daher könnte ich meine Nullhypothese nicht ablehnen.
Heißt das, ich kann schließen, dass meine Daten der Normalverteilung entsprechen? Nein, es ist eine gleichmäßige Verteilung !!
Das Problem ist, dass ich in meiner Nullhypothese die Normalitätsannahme gemacht habe. Daher kann ich nicht zu dem Schluss kommen, dass meine Annahme richtig ist, weil ich sie nicht ablehnen kann.
quelle
quelle
Nein, es handelt sich nicht um Beweise, es sei denn, Sie haben Beweise dafür, dass es Beweise sind. Ich versuche nicht süß zu sein, eher wörtlich. Sie haben nur dann eine Wahrscheinlichkeit, solche Daten zu sehen, wenn Sie davon ausgehen, dass der Nullwert wahr ist. Das ist ALLES, was Sie aus dem p-Wert erhalten (falls dies der Fall ist, da der p-Wert auf Annahmen selbst basiert).
Können Sie eine Studie vorlegen, die zeigt, dass für Studien, die die Nullhypothese "nicht unterstützen", die Mehrheit der Nullhypothesen wahr ist? Wenn Sie DIESE Studie finden können, spiegelt Ihr Versagen, die Nullhypothesen zu widerlegen, zumindest eine SEHR verallgemeinerte Wahrscheinlichkeit wider, dass die Null wahr ist. Ich wette, Sie haben diese Studie nicht. Da Sie keine Hinweise darauf haben, dass Nullhypothesen auf der Grundlage von p-Werten wahr sind, müssen Sie einfach mit leeren Händen davon gehen.
Sie haben mit der Annahme begonnen, dass Ihr Nullwert wahr ist, um diesen p-Wert zu erhalten. Der p-Wert kann also nichts über den Nullwert aussagen, nur über die Daten. Denk darüber nach. Es ist eine einseitige Folgerung - Periode.
quelle