Ich zitiere Gungs großartige Antwort
Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten."
Aus der Sicht von Neyman-Pearson ist dies offensichtliches Hacking. Gibt es jedoch einen Anwendungsfall, in dem der Go-Get-More-Data-Ansatz von Fisher Sinn macht?
Antworten:
Das frequentistische Paradigma ist eine Verschmelzung der Ansichten von Fisher und Neyman-Pearson. Nur bei der Verwendung eines Ansatzes und einer anderen Interpretation treten Probleme auf.
Es sollte für jeden seltsam erscheinen, dass das Sammeln von mehr Daten problematisch ist, da mehr Daten mehr Beweise sind. In der Tat liegt das Problem nicht darin, mehr Daten zu sammeln, sondern den Wert zu verwenden, um sich dafür zu entscheiden, wenn dies auch das Maß des Interesses ist. Das Sammeln weiterer Daten basierend auf dem Wert ist nur dann ein Hacking, wenn Sie einen neuen Wert berechnen .p p p p
Wenn Sie nicht genügend Beweise haben, um eine zufriedenstellende Schlussfolgerung in Bezug auf die Forschungsfrage zu ziehen, holen Sie sich auf jeden Fall mehr Daten. Geben Sie jedoch zu, dass Sie das NHST-Stadium Ihrer Forschung bereits überschritten haben, und konzentrieren Sie sich stattdessen auf die Quantifizierung des interessierenden Effekts.
Interessanterweise leiden die Bayesianer nicht unter diesem Dilemma. Betrachten Sie Folgendes als Beispiel:
quelle
Bei einer ausreichend großen Stichprobe zeigt ein Test immer signifikante Ergebnisse, es sei denn, die tatsächliche Effektgröße ist genau Null, wie hier erläutert . In der Praxis ist die tatsächliche Effektgröße nicht Null. Wenn Sie also mehr Daten erfassen, können Sie die kleinsten Unterschiede erkennen.
Die (IMO-) scherzhafte Antwort von Fisher war eine Antwort auf eine relativ triviale Frage, die nach ihrer Prämisse "signifikante Unterschiede" mit "praktisch relevanten Unterschieden" in Verbindung bringt.
Es würde einem Forscher gleichkommen, der in mein Büro kommt und fragt: "Ich habe dieses Bleigewicht mit der Bezeichnung '25 Gramm 'gewogen und es hat eine Größe von 25,0 Gramm. Ich glaube, es ist falsch beschriftet. Was soll ich tun?" Darauf konnte ich antworten: "Holen Sie sich eine genauere Skala."
Ich halte den Go-Get-More-Data-Ansatz für angemessen, wenn der anfängliche Test so schlecht ist, dass er die praktisch relevante Größe des Unterschieds erkennt.
quelle
Vielen Dank. Hier sind einige Dinge zu beachten:
quelle
Was wir P-Hacking nennen, ist die mehrfache Anwendung eines Signifikanztests, bei dem nur die Signifikanzergebnisse gemeldet werden. Ob dies gut oder schlecht ist, hängt von der jeweiligen Situation ab.
Um dies zu erklären, lassen Sie uns über wahre Effekte in Bayes'schen Begriffen nachdenken, anstatt über Nullhypothesen und alternative Hypothesen. Solange wir glauben, dass unsere interessierenden Effekte von einer kontinuierlichen Verteilung herrühren, wissen wir, dass die Nullhypothese falsch ist. Bei einem zweiseitigen Test wissen wir jedoch nicht, ob er positiv oder negativ ist. Unter diesem Gesichtspunkt können wir uns p-Werte für zweiseitige Tests als Maß dafür vorstellen, wie stark der Beweis dafür ist, dass unsere Schätzung die richtige Richtung hat (dh positive oder negative Wirkung).
Nach dieser Interpretation kann jeder Signifikanztest drei mögliche Ergebnisse haben: Wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, und wir haben Recht, wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, aber wir liegen falsch oder wir tun es nicht Sehen Sie genügend Beweise, um die Richtung des Effekts abzuschließen. Beachten Sie, dass unter der Bedingung, dass Sie genügend Beweise haben (dh ), die Wahrscheinlichkeit, dass die Richtung korrekt ist, größer sein sollte als die Wahrscheinlichkeit, dass sie falsch ist (es sei denn, Sie haben einen wirklich verrückten, wirklich schlechten Test) Die wahre Effektgröße nähert sich Null, die bedingte Wahrscheinlichkeit, die Richtung zu korrigieren, nähert sich 0,5, wenn genügend Beweise vorliegen.p<α
Überlegen Sie nun, was passiert, wenn Sie immer wieder zurückkehren, um mehr Daten zu erhalten. Jedes Mal, wenn Sie mehr Daten erhalten, steigt Ihre Wahrscheinlichkeit, die richtige Richtung zu finden, nur, wenn genügend Daten vorliegen. In diesem Szenario sollten wir also erkennen, dass wir durch das Abrufen weiterer Daten zwar die Wahrscheinlichkeit eines Fehlers vom Typ I erhöhen, aber auch die Wahrscheinlichkeit verringern, fälschlicherweise auf die falsche Richtung zu schließen.
Nehmen Sie dies im Gegensatz zu dem eher typischen Missbrauch von P-Hacking; Wir testen Hunderte von Effektgrößen, die mit hoher Wahrscheinlichkeit sehr klein sind, und geben nur die signifikanten an. Beachten Sie, dass in diesem Fall, wenn alle Effekte gering sind, eine Wahrscheinlichkeit von fast 50% besteht, dass die Richtung falsch ist, wenn wir eine Signifikanz angeben.
Natürlich sollten die aus dieser Datenverdoppelung resultierenden p-Werte immer noch ein Salzkorn enthalten. Während Sie im Allgemeinen kein Problem mit Personen haben sollten, die mehr Daten sammeln, um sicherer über die Effektgröße zu sein, könnte dies auf andere Weise missbraucht werden. Ein cleverer PI könnte beispielsweise erkennen, dass er nicht alle 100 Datenpunkte auf einmal sammelt, sondern eine Menge Geld spart und die Leistung erhöht, indem er zuerst 50 Datenpunkte sammelt, die Daten analysiert und dann die nächsten 50 sammelt, wenn sie nicht signifikant sind . In diesem Szenario erhöhen sie die Wahrscheinlichkeit, dass die Richtung des Effekts falsch ist, abhängig von der Angabe der Signifikanz, da bei 50 Datenpunkten die Wahrscheinlichkeit größer ist, dass die Richtung des Effekts falsch ist als bei 100 Datenpunkten.
Und schließlich sollten Sie überlegen, welche Auswirkungen es hat, keine weiteren Daten zu erhalten, wenn ein unbedeutendes Ergebnis vorliegt. Das würde bedeuten, niemals mehr Informationen zum Thema zu sammeln, was die Wissenschaft nicht wirklich vorantreibt, oder? Eine unterversorgte Studie würde ein ganzes Feld töten.
quelle
Wenn die Alternative hatte eine kleine , a priori Wahrscheinlichkeit, dann ein Experiment , das die Null abzulehnen versagt wird es weiter zu verringern, jede weitere Forschung macht noch weniger kostengünstig. Angenommen, die a priori- Wahrscheinlichkeit ist 0,01. Dann beträgt Ihre Entropie 0,08 Bits. Wenn die Wahrscheinlichkeit auf 0,001 verringert wird, ist Ihre Entropie jetzt 0,01. Daher ist die weitere Erfassung von Daten häufig nicht kosteneffektiv. Ein Grund für die Kosteneffizienz ist, dass das Wissen so wichtig ist, dass auch die verbleibenden 0,01 Bit Entropie eine Reduzierung wert sind.
Ein weiterer Grund wäre, wenn die a priori Wahrscheinlichkeit wirklich hoch wäre. Wenn Ihre A-priori- Wahrscheinlichkeit mehr als 50% betrug, erhöht sich Ihre Entropie, wenn Sie die Null nicht ablehnen , und die Kosten für die weitere Datenerfassung sind höher. Ein Beispiel wäre, wenn Sie fast sicher sind, dass es einen Effekt gibt, aber nicht wissen, in welche Richtung.
Wenn Sie zum Beispiel ein Spionageabwehr-Agent sind und sicher sind, dass eine Abteilung einen Maulwurf hat und ihn auf zwei Verdächtige eingegrenzt hat, und statistische Analysen durchführen, um zu entscheiden, welcher Verdacht vorliegt, dann würde ein statistisch unbedeutendes Ergebnis das Sammeln rechtfertigen mehr Daten.
quelle