In letzter Zeit habe ich viel über die Unterschiede zwischen der Fisher-Methode zum Testen von Hypothesen und der Neyman-Pearson-Denkschule gelesen.
Meine Frage ist, für einen Moment philosophische Einwände zu ignorieren; Wann sollten wir den Fisher-Ansatz der statistischen Modellierung anwenden und wann sollten wir die Neyman-Pearson-Methode von Signifikanzniveaus usw. anwenden? Gibt es eine praktische Möglichkeit, zu entscheiden, welcher Standpunkt in einem bestimmten praktischen Problem vertreten werden soll?
Antworten:
Fisher war der Ansicht, dass der p-Wert als kontinuierliches Maß für die Evidenz gegen die Nullhypothese interpretiert werden kann . Es gibt keinen bestimmten festen Wert, bei dem die Ergebnisse "signifikant" werden. Normalerweise versuche ich, dies den Menschen zu vermitteln, indem ich darauf hinweise, dass p = .049 und p = .051 in jeder Hinsicht eine identische Menge an Beweisen gegen die Nullhypothese darstellen (vgl. @ Henriks Antwort hier ). .
Auf der anderen Seite dachte Neyman & Pearson , Sie könnten den p-Wert als Teil eines formalisierten Entscheidungsprozesses verwenden . Am Ende Ihrer Untersuchung müssen Sie entweder die Nullhypothese ablehnen oder die Nullhypothese nicht ablehnen. Zusätzlich könnte die Nullhypothese entweder wahr oder nicht wahr sein. Somit gibt es vier theoretische Möglichkeiten (obwohl es in einer bestimmten Situation nur zwei gibt): Sie könnten eine richtige Entscheidung treffen (eine wahre Hypothese nicht ablehnen oder eine falsche Nullhypothese ablehnen) oder Sie könnten einen Typ erstellen I- oder Typ-II-Fehler (durch Zurückweisen einer echten Null oder durch Nicht-Zurückweisen einer falschen Null-Hypothese). (Beachten Sie, dass der p-Wert nicht mit der hier diskutierten Typ-I-Fehlerrate übereinstimmtα p < α
Die Ansätze von Fisherian und Neyman-Pearson sind nicht gleich . Die zentrale Behauptung des Neyman-Pearson-Frameworks ist, dass Sie am Ende Ihres Studiums eine Entscheidung treffen und weggehen müssen. Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten."
Persönlich finde ich die elegante Logik des Neyman-Pearson-Ansatzes sehr ansprechend. Aber ich denke nicht, dass es immer angemessen ist. Meiner Meinung nach müssen mindestens zwei Bedingungen erfüllt sein, bevor das Neyman-Pearson-Framework in Betracht gezogen werden sollte:
Wenn diese Bedingungen nicht erfüllt sind, kann der p-Wert immer noch gemäß den Vorstellungen von Fisher interpretiert werden. Darüber hinaus scheint es mir wahrscheinlich, dass diese Bedingungen die meiste Zeit nicht erfüllt sind. Hier sind einige einfache Beispiele, die in den Sinn kommen, wenn Tests ausgeführt werden, die oben genannten Bedingungen jedoch nicht erfüllt sind:
quelle
Praktikabilität liegt im Auge des Betrachters, aber;
Die Signifikanzprüfung nach Fisher kann als eine Möglichkeit interpretiert werden, zu entscheiden, ob die Daten ein interessantes "Signal" suggerieren oder nicht. Entweder lehnen wir die Nullhypothese ab (was ein Fehler vom Typ I sein kann) oder sagen gar nichts. Zum Beispiel passt diese Interpretation in vielen modernen 'Omics'-Anwendungen; Wir wollen nicht zu viele Fehler vom Typ I machen, wir wollen die aufregendsten Signale herausholen, auch wenn wir vielleicht einige verpassen.
Die Hypothese von Neyman-Pearson ist sinnvoll, wenn es zwei nicht zusammenhängende Alternativen gibt (z. B. das Higgs-Boson existiert oder nicht), zwischen denen wir uns entscheiden. Neben dem Risiko eines Fehlers vom Typ I können wir hier auch einen Fehler vom Typ II machen - wenn ein echtes Signal vorhanden ist, wir aber sagen, dass es nicht vorhanden ist, und eine Nullentscheidung treffen. NP argumentierte, dass wir das Risiko von Typ-II-Fehlern minimieren wollen, ohne zu viele Typ-I-Fehlerraten zu erzeugen.
Häufig scheint keines der beiden Systeme perfekt zu sein. Beispielsweise möchten Sie möglicherweise nur eine Punktschätzung und ein entsprechendes Maß für die Unsicherheit. Außerdem spielt es möglicherweise keine Rolle, welche Version Sie verwenden, da Sie den p-Wert melden und die Testinterpretation dem Leser überlassen. Um jedoch zwischen den obigen Ansätzen zu wählen, müssen Sie ermitteln, ob (oder nicht) Fehler vom Typ II für Ihre Anwendung relevant sind.
quelle
Der springende Punkt ist, dass Sie die philosophischen Unterschiede nicht ignorieren können. Ein mathematisches Verfahren in der Statistik ist nicht einfach etwas, das Sie anwenden, ohne einige zugrunde liegende Hypothesen, Annahmen, Theorien ... Philosophie.
Das heißt, wenn Sie darauf bestehen, sich an häufig vorkommende Philosophien zu halten, kann es einige sehr spezifische Probleme geben, bei denen Neyman-Pearson wirklich berücksichtigt werden muss. Sie würden alle in die Klasse der wiederholten Tests wie Qualitätskontrolle oder fMRT fallen. Das Festlegen eines bestimmten Alphas im Voraus und das Berücksichtigen des gesamten Frameworks für Typ I, Typ II und Leistung wird in dieser Einstellung wichtiger.
quelle
Mein Verständnis ist: p-value soll uns sagen, was wir glauben sollen (Überprüfung einer Theorie mit ausreichenden Daten), während der Neyman-Pearson-Ansatz uns sagen soll, was zu tun ist (Treffen bestmöglicher Entscheidungen auch mit begrenzten Daten). Aus meiner Sicht ist der (kleine) p-Wert also strenger, während der Neyman-Pearson-Ansatz pragmatischer ist. Das ist wahrscheinlich der Grund, warum p-value eher zur Beantwortung wissenschaftlicher Fragen verwendet wird, während Neyman und Pearson eher dazu verwendet werden, statistische / praktische Entscheidungen zu treffen.
quelle