Es ist allgemein bekannt, dass Forscher Zeit damit verbringen sollten , vorhandene Daten und Forschungsergebnisse zu beobachten und zu untersuchen, bevor sie eine Hypothese bilden und dann Daten sammeln, um diese Hypothese zu testen (unter Bezugnahme auf das Testen der Signifikanz von Nullhypothesen). Viele grundlegende Statistiken Bücher warnen , dass Hypothesen gebildet werden müssen , a priori und kann nicht geändert werden kann , nachdem die Datenerhebung auf andere Weise die Methodik ungültig wird.
Ich verstehe, dass ein Grund, warum das Ändern einer Hypothese in Übereinstimmung mit beobachteten Daten problematisch ist, in der höheren Wahrscheinlichkeit besteht, dass aufgrund falscher Daten ein Fehler vom Typ I auftritt. Meine Frage lautet jedoch: Ist dies der einzige Grund, oder gibt es andere grundsätzliche Probleme beim Gehen? auf einer fischexpedition?
Gibt es als Bonusfrage Möglichkeiten, auf Fangexpeditionen zu gehen, ohne sich den möglichen Fallstricken auszusetzen? Wenn Sie beispielsweise über genügend Daten verfügen, können Sie aus der Hälfte der Daten Hypothesen generieren und diese dann mit der anderen Hälfte testen?
aktualisieren
Ich freue mich über das Interesse an meiner Frage, aber die Antworten und Kommentare richten sich hauptsächlich nach dem, was ich als Hintergrundinformation festgelegt habe. Es interessiert mich, ob es noch andere Gründe gibt, warum dies nicht der Fall ist, und ob es Möglichkeiten gibt, z. B. Daten zuerst zu teilen, eine Hypothese post hoc zu ändern, aber die Zunahme von Fehlern des Typs I zu vermeiden.
Ich habe den Titel aktualisiert, um hoffentlich den Kern meiner Frage widerzuspiegeln.
Danke und Entschuldigung für die Verwirrung!
quelle
Antworten:
Natürlich können Sie auch Angelexpeditionen unternehmen, solange Sie zugeben, dass es sich um eine Angelexpedition handelt, und diese als solche behandeln. Eine schönere Bezeichnung dafür ist "explorative Datenanalyse".
Eine bessere Analogie könnte darin bestehen, auf ein Ziel zu schießen:
Sie können auf ein Ziel schießen und feiern, wenn Sie ins Schwarze treffen.
Sie können ohne Ziel schießen, um die Eigenschaften Ihrer Waffe zu testen.
Aber es ist Betrug, auf eine Wand zu schießen und dann ein Ziel um das Einschussloch zu malen.
Eine Möglichkeit, einige Probleme zu vermeiden, besteht darin, die Untersuchung in einem Trainingsdatensatz durchzuführen und ihn dann in einem separaten "Test" -Datensatz zu testen.
quelle
But it's cheating to shoot at a wall and then paint a target around the bullet hole.
Das Problem bei Angelexpeditionen ist: Wenn Sie genügend Hypothesen testen, wird eine davon mit einem niedrigen p-Wert bestätigt. Lassen Sie mich ein konkretes Beispiel geben.
Stellen Sie sich vor, Sie führen eine epidemiologische Studie durch. Sie haben 1000 Patienten gefunden, die an einer seltenen Krankheit leiden. Sie möchten wissen, was sie gemeinsam haben. Beginnen Sie mit dem Testen - Sie möchten sehen, ob ein bestimmtes Merkmal in diesem Beispiel überrepräsentiert ist. Sie testen zunächst Geschlecht, Rasse, bestimmte relevante Familienanamnese (Vater starb vor seinem 50. Lebensjahr an einer Herzerkrankung,…), aber wenn Sie Probleme haben, irgendetwas zu finden, das "klebt", fügen Sie schließlich alle möglichen anderen Faktoren hinzu, die gerecht werden könnte mit der Krankheit zusammenhängen:
…
Jetzt ist hier das Ding. Wenn ich genügend "zufällige" Hypothesen auswähle, wird es wahrscheinlich, dass mindestens eine davon zu einem p-Wert von weniger als 0,05 führt, da das Wesen des p-Werts darin besteht, dass die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, falsch ist ist kein Effekt ". Anders ausgedrückt: Im Durchschnitt erhalten Sie für jede 20 Scheinhypothesen, die Sie testen, einen ap von <0,05 .
Dies ist sehr gut in der XKCD-Karikatur http://xkcd.com/882/ zusammengefasst :
Die Tragödie ist, dass selbst wenn ein einzelner Autor nicht 20 verschiedene Hypothesentests an einer Stichprobe durchführt, um nach Signifikanz zu suchen, es 19 andere Autoren geben kann, die dasselbe tun; und derjenige, der eine Korrelation "findet", hat jetzt ein interessantes Papier zu schreiben, und eines, das wahrscheinlich zur Veröffentlichung angenommen wird ...
Dies führt zu einer unglücklichen Tendenz zu nicht reproduzierbaren Befunden. Der beste Weg, sich als einzelner Autor dagegen zu schützen, besteht darin, die Messlatte höher zu legen. Anstatt auf den individuellen Faktor zu testen, fragen Sie sich: "Wenn ich N Hypothesen teste, wie hoch ist die Wahrscheinlichkeit, dass mindestens ein falsches Positiv herauskommt?" Wenn Sie wirklich "Fischereihypothesen" testen, könnten Sie darüber nachdenken, eine Bonferroni-Korrektur vorzunehmen , um sich dagegen zu schützen - aber die Leute tun dies häufig nicht.
Es gab einige interessante Artikel von Dr. Ioannides, die im Atlantic Monthly speziell zu diesem Thema vorgestellt wurden.
Siehe auch diese frühere Frage mit mehreren aufschlussreichen Antworten.
Update, um besser auf alle Aspekte Ihrer Frage zu antworten:
Wenn Sie befürchten, Sie könnten "angeln", aber wirklich nicht wissen, welche Hypothese Sie formulieren sollen, können Sie Ihre Daten definitiv in die Abschnitte "Exploration", "Replikation" und "Bestätigung" aufteilen. Im Prinzip sollte dies Ihr Risiko einschränken: Wenn Sie in den Explorationsdaten einen p-Wert von 0,05 haben und in den Replikations- und Bestätigungsdaten einen ähnlichen Wert erhalten, sinkt das Risiko, dass Sie falsch liegen. Ein schönes Beispiel für "Do it Right" wurde im British Medical Journal gezeigt (eine sehr angesehene Veröffentlichung mit einem Impact Factor von 17+).
Untersuchung und Bestätigung von Faktoren im Zusammenhang mit einer unkomplizierten Schwangerschaft bei nulliparen Frauen: prospektive Kohortenstudie, Chappell et al
Hier ist der relevante Absatz:
In der Literatur gibt es einen guten Aufsatz von Altman et al. Mit dem Titel "Prognose- und Prognoseforschung: Validierung eines Prognosemodells", der viel tiefer geht und Wege vorschlägt, um sicherzustellen, dass Sie nicht hineinfallen dieser Fehler. Die "wichtigsten Punkte" aus dem Artikel:
Beachten Sie insbesondere den Vorschlag, dass die Validierung mit Daten aus anderen Quellen durchgeführt werden soll (ich umschreibe es). Das heißt, es reicht nicht aus, Ihre Daten willkürlich in Teilmengen aufzuteilen von Experimenten können auf Daten aus einer anderen Reihe von Experimenten angewendet werden. Dies ist eine höhere Messlatte, verringert jedoch das Risiko, dass eine systematische Abweichung in Ihrem Setup zu "Ergebnissen" führt, die nicht unabhängig überprüft werden können.
Es ist ein sehr wichtiges Thema - danke, dass Sie die Frage gestellt haben!
quelle
In der Frage wird gefragt, ob es andere Probleme als die Typ-I-Fehlerinflation gibt, die mit den Fangexpeditionen einhergehen.
quelle