Wann ist der Ansatz von Fisher, mehr Daten zu sammeln, sinnvoll?

25

Angeblich hat sich ein Forscher einmal mit "nicht signifikanten" Ergebnissen an Fisher gewandt und ihn gefragt, was er tun soll, und Fisher sagte: "Geh und hol mehr Daten."

Aus der Sicht von Neyman-Pearson ist dies offensichtliches Hacking. Gibt es jedoch einen Anwendungsfall, in dem der Go-Get-More-Data-Ansatz von Fisher Sinn macht? $p$

hypothesis-testing p-value intuition philosophical nalzok
quelle

9

Fisher betonte (wiederholt) die Wichtigkeit der Wiederholung von Experimenten und ich gehe davon aus, dass dies seine Absicht war (vorausgesetzt, das Gespräch fand statt). Mit Sicherheit hätte Fisher gewusst, dass Sie nicht auf Signifikanz prüfen und dann Ihre erste Stichprobe erweitern können, wenn Sie sie nicht erhalten hätten.

Glen_b

@ Glen_b Ich habe die Phrase "Replikation von Experimenten" schon einmal gehört, aber nicht ganz verstanden. Können Sie näher darauf eingehen? Angenommen, sind zehn Wiederholungen eines Experiments mit einer Stichprobengröße von 10 besser als ein einzelnes Experiment mit einer Stichprobengröße von 100?

Nalzok

In einer explorativen Studie können Go-Get-More-Daten akzeptabel sein. In der konfirmatorischen Studie gibt es keine Position für Go-Get-More-Daten.

user158565

4

Eine meiner kontroversen Ansichten zur statistischen Praxis ist, dass wir, obwohl es wichtig ist, das Problem der falsch-positiven Ergebnisse zu berücksichtigen, die Fehlerrate von Typ 1 nicht auf ein so hohes Podest setzen sollten, dass wir es ablehnen, aus den Daten zu lernen, um einen Typ zu erhalten 1 Fehlerrate.

Cliff AB

28

Das frequentistische Paradigma ist eine Verschmelzung der Ansichten von Fisher und Neyman-Pearson. Nur bei der Verwendung eines Ansatzes und einer anderen Interpretation treten Probleme auf.

Es sollte für jeden seltsam erscheinen, dass das Sammeln von mehr Daten problematisch ist, da mehr Daten mehr Beweise sind. In der Tat liegt das Problem nicht darin, mehr Daten zu sammeln, sondern den Wert zu verwenden, um sich dafür zu entscheiden, wenn dies auch das Maß des Interesses ist. Das Sammeln weiterer Daten basierend auf dem Wert ist nur dann ein Hacking, wenn Sie einen neuen Wert berechnen . $p$ $p$ $p$ $p$

Wenn Sie nicht genügend Beweise haben, um eine zufriedenstellende Schlussfolgerung in Bezug auf die Forschungsfrage zu ziehen, holen Sie sich auf jeden Fall mehr Daten. Geben Sie jedoch zu, dass Sie das NHST-Stadium Ihrer Forschung bereits überschritten haben, und konzentrieren Sie sich stattdessen auf die Quantifizierung des interessierenden Effekts.

Interessanterweise leiden die Bayesianer nicht unter diesem Dilemma. Betrachten Sie Folgendes als Beispiel:

Wenn ein Frequentist keinen signifikanten Unterschied feststellt und dann zu einem Äquivalenztest übergeht, ist die falsch-positive Rate sicherlich gestiegen;
Ein Bayesianer kann das höchste Dichteintervall und den höchsten Bereich der praktischen Äquivalenz eines Unterschieds gleichzeitig ausdrücken und nachts genauso schlafen.

Frans Rodenburg
quelle

Angenommen, ich möchte testen, ob der Mittelwert von Bevölkerung A dem von Bevölkerung B entspricht. Zunächst erhalte ich einige Daten, führe einen Test für : " Die Mittelwerte sind gleich", und ich kann ihn nicht ablehnen. In diesem Fall sollte ich keinen weiteren Test für : "Die Mittelwerte sind NICHT gleich". Ich kann nur die vertraulichen Intervalle der Mittel abschätzen. Ist das richtig? Was ist, wenn sich die beiden Intervalle nicht überschneiden?

H_{0}

$H_0$

H_{0}

$H_0$

Nalzok

6

"Es ist nur p-Hacking, wenn Sie einen neuen p-Wert berechnen." Kommt es nicht darauf an, nach welcher Methode der p-Wert berechnet wird? Das Ignorieren der sequentiellen Analyse und der Entscheidung, mehr Daten zu sammeln, führt zu einem ungenauen p-Wert. Wenn Sie jedoch die Entscheidungsregel zum Sammeln weiterer Daten in die Berechnung des p-Werts einbeziehen, erhalten Sie einen gültigen p-Wert.

Jsk

4

@jsk Ich denke, es ist weniger so, dass später berechnete p-Werte in irgendeiner Weise ungültig sind, als vielmehr, dass Sie einen willkürlichen und nicht datengetriebenen Standard verwenden, um zu beurteilen, wann Ihr Experiment "korrekt" und Ihre Forschung zu diesem Projekt "korrekt" ist. getan". Die Entscheidung , dass alle nicht-signifikante p-Werte falsch sind, und das Sammeln von Daten , bis Sie eine, die ist signifikant und dann zu stoppen , weil Sie haben das „richtige“ Ergebnis gekommen ist das Gegenteil der experimenteller Wissenschaft.

Upper_Case-Stop Harming Monica

1

@Upper_Case Ich habe einen sehr kleinen Abschnitt des Beitrags in Bezug auf p-Hacking kommentiert, weshalb ich diesen Abschnitt in Anführungszeichen gesetzt habe. Sie lesen viel zu viel in meiner Aussage. Mein Punkt ist, dass JEDE Entscheidungsregel, die verwendet wird, um zu entscheiden, mehr Daten zu sammeln, in die Berechnung des p-Werts einbezogen werden muss. Solange Sie die getroffenen Entscheidungen in die Berechnung des p-Werts einbeziehen, können Sie auf Wunsch immer noch eine gültige NHST durchführen. Dies bedeutet keineswegs, dass ich mich für eine Stoppregel aussetze, die besagt: "Sammeln Sie mehr Daten, bis Sie ein signifikantes Ergebnis erzielen."

Jsk

@jsk Ah, ich verstehe deinen Standpunkt jetzt besser. Danke für die Klarstellung.

Upper_Case-Stop Monica

10

Bei einer ausreichend großen Stichprobe zeigt ein Test immer signifikante Ergebnisse, es sei denn, die tatsächliche Effektgröße ist genau Null, wie hier erläutert . In der Praxis ist die tatsächliche Effektgröße nicht Null. Wenn Sie also mehr Daten erfassen, können Sie die kleinsten Unterschiede erkennen.

Die (IMO-) scherzhafte Antwort von Fisher war eine Antwort auf eine relativ triviale Frage, die nach ihrer Prämisse "signifikante Unterschiede" mit "praktisch relevanten Unterschieden" in Verbindung bringt.

Es würde einem Forscher gleichkommen, der in mein Büro kommt und fragt: "Ich habe dieses Bleigewicht mit der Bezeichnung '25 Gramm 'gewogen und es hat eine Größe von 25,0 Gramm. Ich glaube, es ist falsch beschriftet. Was soll ich tun?" Darauf konnte ich antworten: "Holen Sie sich eine genauere Skala."

Ich halte den Go-Get-More-Data-Ansatz für angemessen, wenn der anfängliche Test so schlecht ist, dass er die praktisch relevante Größe des Unterschieds erkennt.

Underminer
quelle

Der Punkt ist jedoch, dass Sie die Entscheidung, mehr Daten zu erhalten, in die Berechnung des p-Werts einbeziehen müssen.

Jsk

@jsk Auch wenn Sie den p-Wert ändern, können Sie immer noch mehr Daten erfassen, um ein signifikantes Ergebnis zu erzielen (obwohl Sie noch mehr Daten benötigen würden).

Untergraben Sie den

1

Ich hätte klarer sein können. Ich bin mir nicht sicher, was genau Sie unter "Sie KÖNNEN noch mehr Daten sammeln, um ein signifikantes Ergebnis zu erzielen" verstehen. Ich verstehe, dass, da die Nullhypothese im Allgemeinen nie wirklich wahr ist, das Sammeln von mehr Daten letztendlich zu einem signifikanten Ergebnis führen wird. Ich wollte nur darauf hinweisen, dass Sie bei der Berechnung des p-Werts die Entscheidung, mehr Daten zu sammeln, in die Berechnung des p-Werts einbeziehen müssen. Dies bedeutet, dass die Entscheidungsregeln (zum Sammeln weiterer Daten) vor der ursprünglichen Datenerfassung festgelegt werden müssen.

Jsk

@jsk Selbst bei einer sehr konservativen Methode zur Anpassung des p-Werts (z. B. Bonferroni korrekt, anwendbar bei der Post-Hoc-Analyse) gibt es eine zusätzliche Stichprobengröße, die groß genug ist, um die Korrektur zu überwinden. Der Punkt ist: Wenn Sie mir eine p-Wert-Anpassungsmethode zur Verfügung stellen (angegeben vor der ursprünglichen Datenerfassung oder nicht), den wahren Unterschied zwischen den Bevölkerungsverteilungen der interessierenden Gruppen und unbedeutende vorläufige Ergebnisse; und ich kann Ihnen eine ausreichend große Stichprobe zur Verfügung stellen, mit der Sie signifikante Ergebnisse erzielen. Daher sind mehr Daten IMMER eine Antwort.

Underminer

7

Vielen Dank. Hier sind einige Dinge zu beachten:

Das Zitat kann apokryphisch sein.
Es ist durchaus sinnvoll , für eine zweite Studie mehr / bessere Daten oder Daten aus einer anderen Quelle zu erhalten (genauerer Maßstab, vgl. Antwort von @ Underminer ; andere Situation oder Kontrollen usw.) (vgl. Kommentar von @ Glen_b ). . Das heißt, Sie würden die zusätzlichen Daten nicht in Verbindung mit den ursprünglichen Daten analysieren: Angenommen, Sie hätten N = 10 mit einem nicht signifikanten Ergebnis, Sie könnten weitere N = 20 Daten sammeln und sie alleine analysieren (ohne die vollständigen 30 zusammen zu testen) ). Wenn das Zitat nicht apokryphisch ist, könnte es das gewesen sein, was Fisher im Sinn hatte.
Fischers Wissenschaftsphilosophie war im Wesentlichen Popperian . Das heißt, die Null war nicht unbedingt etwas, das Sie genau ablehnen sollten, um Ihre Theorie zu bestätigen, aber idealerweise könnte es sich um Ihre Theorie selbst handeln, so dass Ablehnung bedeutet, dass Ihre Haustiertheorie falsch ist und Sie zum Zeichenbrett zurückkehren müssen. In einem solchen Fall würde die Typ-I-Fehlerinflation dem Forscher keinen Nutzen bringen. (Andererseits spricht diese Interpretation gegen Fisher, der diesen Rat gibt, es sei denn, er war streitsüchtig, was nicht untypisch gewesen wäre.)
In jedem Fall sollte darauf hingewiesen werden, dass der Grund, warum ich diesen Kommentar aufgenommen habe, darin besteht, dass er etwas Grundlegendes über den Unterschied in der Natur der beiden Ansätze veranschaulicht.

gung - Wiedereinsetzung von Monica
quelle

1

(Nehmen wir an, jemand anders als Fisher hat dieses Zitat gesagt, was seine Richtigkeit nicht beeinträchtigt.) Als Antwort auf Ihren zweiten Punkt, AFAIK, auch wenn Sie die zusätzlichen Daten nicht in Verbindung mit den Originaldaten analysieren, ist es immer noch Hacking. Auf diese Weise akzeptieren Sie die alternative Hypothese mit größerer Wahrscheinlichkeit fälschlicherweise, da die ursprünglichen Daten, die die Nullhypothese unterstützen, verworfen werden. Andererseits ist dies sinnvoll, wenn Sie Ihren dritten Punkt anwenden, da Sie erst dann weiter testen, wenn eine Nullhypothese (zufällig) zurückgewiesen wird.

p

$p$

Nalzok

Übrigens wäre es großartig, wenn Sie "den Unterschied in der Natur der beiden Ansätze" erläutern könnten. Fischers Methode hört sich eher subjektiv an, da ich denke, dass ihm die Fehlerquote nicht wirklich wichtig ist, aber mir könnte etwas fehlen.

Nalzok

1

@nalzok, der Unterschied wird im Original-Thread erörtert: Der Neyman-Pearson-Ansatz geht davon aus, dass die Studie ein diskretes Ereignis ist. Fischers Ansatz geht davon aus, dass das Problem derzeit untersucht wird. Betreff: # 2, wenn Sie die Daten isoliert analysieren, ist es kein P-Hacking (es sei denn, Sie führen mehrere Studien durch und veröffentlichen nur die, die gezeigt hat, was Sie wollen). Betreff: # 3, nein, die Null wird nicht akzeptiert. Sie müssen immer bessere Wege finden, um Ihre Theorie zu testen.

gung - Wiedereinsetzung von Monica

1

p

$p$

p

$p$

1

(+1) Manchmal denke ich, wir konzentrieren uns auf den Baum und vermissen den Wald. Wenn wir ein schweres Problem haben, sind in der Regel mehr Daten besser als weniger Daten. In den meisten Fällen sind mehr Daten nicht viel besser. Wie Mengs aufschlussreiche Veröffentlichung aus dem Jahr 2018 " Statistische Paradiese und Paradoxien in Big Data (I) " nahe legt, ist es viel vorteilhafter , bessere Daten (z. B. eine gut ausgewählte Stichprobe) zu erhalten als größere Daten, wenn wir versuchen, eine unbekannte Menge zu schätzen . Aber normalerweise helfen mehr Daten!

usεr11852 sagt Reinstate Monic

6

Was wir P-Hacking nennen, ist die mehrfache Anwendung eines Signifikanztests, bei dem nur die Signifikanzergebnisse gemeldet werden. Ob dies gut oder schlecht ist, hängt von der jeweiligen Situation ab.

Um dies zu erklären, lassen Sie uns über wahre Effekte in Bayes'schen Begriffen nachdenken, anstatt über Nullhypothesen und alternative Hypothesen. Solange wir glauben, dass unsere interessierenden Effekte von einer kontinuierlichen Verteilung herrühren, wissen wir, dass die Nullhypothese falsch ist. Bei einem zweiseitigen Test wissen wir jedoch nicht, ob er positiv oder negativ ist. Unter diesem Gesichtspunkt können wir uns p-Werte für zweiseitige Tests als Maß dafür vorstellen, wie stark der Beweis dafür ist, dass unsere Schätzung die richtige Richtung hat (dh positive oder negative Wirkung).

Nach dieser Interpretation kann jeder Signifikanztest drei mögliche Ergebnisse haben: Wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, und wir haben Recht, wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, aber wir liegen falsch oder wir tun es nicht Sehen Sie genügend Beweise, um die Richtung des Effekts abzuschließen. Beachten Sie, dass unter der Bedingung, dass Sie genügend Beweise haben (dh ), die Wahrscheinlichkeit, dass die Richtung korrekt ist, größer sein sollte als die Wahrscheinlichkeit, dass sie falsch ist (es sei denn, Sie haben einen wirklich verrückten, wirklich schlechten Test) Die wahre Effektgröße nähert sich Null, die bedingte Wahrscheinlichkeit, die Richtung zu korrigieren, nähert sich 0,5, wenn genügend Beweise vorliegen. $p < \alpha$

Überlegen Sie nun, was passiert, wenn Sie immer wieder zurückkehren, um mehr Daten zu erhalten. Jedes Mal, wenn Sie mehr Daten erhalten, steigt Ihre Wahrscheinlichkeit, die richtige Richtung zu finden, nur, wenn genügend Daten vorliegen. In diesem Szenario sollten wir also erkennen, dass wir durch das Abrufen weiterer Daten zwar die Wahrscheinlichkeit eines Fehlers vom Typ I erhöhen, aber auch die Wahrscheinlichkeit verringern, fälschlicherweise auf die falsche Richtung zu schließen.

Nehmen Sie dies im Gegensatz zu dem eher typischen Missbrauch von P-Hacking; Wir testen Hunderte von Effektgrößen, die mit hoher Wahrscheinlichkeit sehr klein sind, und geben nur die signifikanten an. Beachten Sie, dass in diesem Fall, wenn alle Effekte gering sind, eine Wahrscheinlichkeit von fast 50% besteht, dass die Richtung falsch ist, wenn wir eine Signifikanz angeben.

Natürlich sollten die aus dieser Datenverdoppelung resultierenden p-Werte immer noch ein Salzkorn enthalten. Während Sie im Allgemeinen kein Problem mit Personen haben sollten, die mehr Daten sammeln, um sicherer über die Effektgröße zu sein, könnte dies auf andere Weise missbraucht werden. Ein cleverer PI könnte beispielsweise erkennen, dass er nicht alle 100 Datenpunkte auf einmal sammelt, sondern eine Menge Geld spart und die Leistung erhöht, indem er zuerst 50 Datenpunkte sammelt, die Daten analysiert und dann die nächsten 50 sammelt, wenn sie nicht signifikant sind . In diesem Szenario erhöhen sie die Wahrscheinlichkeit, dass die Richtung des Effekts falsch ist, abhängig von der Angabe der Signifikanz, da bei 50 Datenpunkten die Wahrscheinlichkeit größer ist, dass die Richtung des Effekts falsch ist als bei 100 Datenpunkten.

Und schließlich sollten Sie überlegen, welche Auswirkungen es hat, keine weiteren Daten zu erhalten, wenn ein unbedeutendes Ergebnis vorliegt. Das würde bedeuten, niemals mehr Informationen zum Thema zu sammeln, was die Wissenschaft nicht wirklich vorantreibt, oder? Eine unterversorgte Studie würde ein ganzes Feld töten.

Cliff AB
quelle

1

(+1) Dies ist eine interessante Sichtweise, aber können Sie den Unterschied zwischen der Fisher-Methodik und der des cleveren PI erläutern? Beide sammeln mehr Daten, weil der erste Test anscheinend unbedeutend ist.

Nalzok

Ich bin mir auch nicht sicher, was Sie damit meinen "obwohl wir tatsächlich die Wahrscheinlichkeit eines Fehlers vom Typ I erhöhen, verringern wir auch die Wahrscheinlichkeit, fälschlicherweise die falsche Richtung zu bestimmen". Was ist die Nullhypothese hier? IMO: Wenn Sie einen einseitigen Test durchführen, ist "die falsche Richtung abschließen" "ein Fehler vom Typ I", und für zweiseitige Tests sollten Sie die Richtung nicht abschließen.

Nalzok

Korrigieren Sie mich, wenn ich falsch liege, aber ich denke, Sie schlagen vor, weitere Daten zu sammeln, bis ein zweiseitiger Test signifikant ist. In diesem Fall würde die Fehlerrate von Typ I 100% betragen.

Nalzok

1

Der Hauptunterschied zwischen dem, was Fisher empfiehlt, und dem cleveren / naiven PI besteht darin, dass Fisher diesen Anruf aus der abgeschlossenen Studie tätigt. Seine Optionen sind entweder, mehr Daten zu sammeln oder zu entscheiden, dass er niemals die Richtung des Effekts erfahren wird. Andererseits beschließt der PI, seine anfängliche Studie zu unterbieten, bevor er die Daten überhaupt sieht.

Cliff AB

1

@nalzok: sicher, ich werde versuchen, einen Blick während der arbeitsfreien Zeiten zu werfen :)

Cliff AB

1

Wenn die Alternative hatte eine kleine , a priori Wahrscheinlichkeit, dann ein Experiment , das die Null abzulehnen versagt wird es weiter zu verringern, jede weitere Forschung macht noch weniger kostengünstig. Angenommen, die a priori- Wahrscheinlichkeit ist 0,01. Dann beträgt Ihre Entropie 0,08 Bits. Wenn die Wahrscheinlichkeit auf 0,001 verringert wird, ist Ihre Entropie jetzt 0,01. Daher ist die weitere Erfassung von Daten häufig nicht kosteneffektiv. Ein Grund für die Kosteneffizienz ist, dass das Wissen so wichtig ist, dass auch die verbleibenden 0,01 Bit Entropie eine Reduzierung wert sind.

Ein weiterer Grund wäre, wenn die a priori Wahrscheinlichkeit wirklich hoch wäre. Wenn Ihre A-priori- Wahrscheinlichkeit mehr als 50% betrug, erhöht sich Ihre Entropie, wenn Sie die Null nicht ablehnen , und die Kosten für die weitere Datenerfassung sind höher. Ein Beispiel wäre, wenn Sie fast sicher sind, dass es einen Effekt gibt, aber nicht wissen, in welche Richtung.

Wenn Sie zum Beispiel ein Spionageabwehr-Agent sind und sicher sind, dass eine Abteilung einen Maulwurf hat und ihn auf zwei Verdächtige eingegrenzt hat, und statistische Analysen durchführen, um zu entscheiden, welcher Verdacht vorliegt, dann würde ein statistisch unbedeutendes Ergebnis das Sammeln rechtfertigen mehr Daten.

Akkumulation
quelle

Warum sinkt die Wahrscheinlichkeit, wenn die Null nicht abgelehnt wird? Obwohl das Fehlen von Beweisen kein Beweis für das Fehlen ist, kann ich nicht verstehen, warum es Beweise gegen das Fehlen sind.

Nalzok

@nalzok Ich schrieb: "Wenn die Alternative eine geringe Wahrscheinlichkeit von vornherein hatte, wird sie durch ein Experiment, das die Null nicht ablehnt, weiter verringert." kann daher nicht verringert werden und ist kein gültiger Vorgänger für "es". Außerdem bedeutet "weiter", dass sich "es" auf etwas bezieht, das bereits klein ist. Diese Tatsachen deuten darauf hin, dass "es" die "kleine a priori Wahrscheinlichkeit" der Alternative ist.

Akkumulation

Wann ist der Ansatz von Fisher, mehr Daten zu sammeln, sinnvoll?

Antworten: