Daten "Erkundung" vs. Daten "Schnüffeln" / "Foltern"?

30

Oft bin ich auf informelle Warnungen vor "Datenschnüffeln" gestoßen (hier ist ein amüsantes Beispiel ), und ich glaube, ich habe eine intuitive Vorstellung davon, was das ungefähr bedeutet und warum es ein Problem sein könnte.

Andererseits scheint die "explorative Datenanalyse" ein absolut seriöses Verfahren in der Statistik zu sein, zumindest wenn man bedenkt, dass ein Buch mit diesem Titel immer noch als Klassiker verehrt wird.

In meiner Arbeit stoße ich oft auf das, was für mich wie zügelloses "Datenschnüffeln" aussieht, oder vielleicht würde es besser als " Datenquälerei " beschrieben, obwohl diejenigen, die dies tun, die gleiche Aktivität als völlig vernünftige und unproblematische "Erkundung zu betrachten scheinen ".

Hier ist das typische Szenario: Es werden kostenintensive Experimente durchgeführt (ohne viel über die nachfolgende Analyse nachzudenken), die ursprünglichen Forscher können eine "Geschichte" in den gesammelten Daten nicht ohne weiteres erkennen, jemand wird herbeigeführt, um eine "statistische Zauberei" anzuwenden, und wer Nachdem die Daten in alle Richtungen aufgeschnitten und in Würfel geschnitten wurden , gelingt es ihm schließlich, eine publizierbare "Geschichte" daraus zu extrahieren.

Natürlich wird im Abschlussbericht / in der Abschlussarbeit normalerweise eine "Validierung" vorgenommen, um zu zeigen, dass die statistische Analyse auf dem Vormarsch ist, aber die offensichtliche Einstellung dahinter, um jeden Preis zu veröffentlichen, lässt mich zweifeln.

Leider hindert mich mein begrenztes Verständnis der Vor- und Nachteile der Datenanalyse daran, über solche vagen Zweifel hinauszugehen. Meine konservative Antwort lautet daher, solche Ergebnisse grundsätzlich zu ignorieren.

Meine Hoffnung ist, dass ich nicht nur ein besseres Verständnis der Unterscheidung zwischen Erkundung und Beschnüffelung / Folter, sondern vor allem auch ein besseres Verständnis der Prinzipien und Techniken zum Erkennen, wann diese Grenze überschritten wurde, in der Lage bin, solche Ergebnisse zu bewerten Ein Weg, der vernünftigerweise für ein weniger als optimales Analyseverfahren verantwortlich ist und daher über meine derzeit eher einfältige Reaktion des pauschalen Unglaubens hinausgehen kann.


EDIT: Vielen Dank für die sehr interessanten Kommentare und Antworten. Nach ihrem Inhalt zu urteilen, glaube ich, dass ich meine Frage nicht gut genug erklärt habe. Ich hoffe, dass dieses Update die Sache klären wird.

Meine Frage hier betrifft nicht so sehr das, was ich tun sollte, um das Foltern meiner Daten zu vermeiden (obwohl dies eine Frage ist, die mich auch interessiert), sondern vielmehr: Wie soll ich Ergebnisse betrachten (oder bewerten), von denen ich weiß, dass sie durchgekommen sind solche "Daten Folter."

Interessanter wird die Situation in den (viel selteneren) Fällen, in denen ich darüber hinaus in der Lage bin, eine Stellungnahme zu solchen "Erkenntnissen" abzugeben, bevor sie zur Veröffentlichung eingereicht werden.

An diesem Punkt kann ich höchstens etwas sagen wie "Ich weiß nicht, wie viel Glaubwürdigkeit ich diesen Ergebnissen beimessen kann, wenn ich weiß, welche Annahmen und Verfahren sie zugrunde gelegt haben." Das ist zu vage, um es überhaupt zu sagen. Über diese Unbestimmtheit hinausgehen zu wollen, war die Motivation für meinen Beitrag.

Um fair zu sein, meine Zweifel beruhen hier auf mehr als fragwürdigen statistischen Methoden. Tatsächlich sehe ich letzteres eher als Konsequenz des tieferen Problems: eine Kombination aus einer unbekümmerten Haltung gegenüber experimentellem Design und einer kategorischen Verpflichtung, die Ergebnisse so zu veröffentlichen, wie sie vorliegen (dh ohne weitere Experimente). Nachfolgeprojekte sind natürlich immer angedacht, aber es kommt einfach nicht in Frage, dass aus einem Kühlschrank, der mit 100.000 Proben gefüllt ist, kein einziges Papier herauskommt.

Statistiken kommen nur ins Spiel, um dieses oberste Ziel zu erreichen. Die einzige Rechtfertigung für das Festhalten an der Statistik (sekundär wie im gesamten Szenario) besteht darin, dass eine frontale Herausforderung für die Annahme von "Veröffentlichung um jeden Preis" einfach sinnlos ist.

In der Tat kann ich mir in solchen Situationen nur eine effektive Antwort vorstellen: einen statistischen Test vorzuschlagen (der keine zusätzlichen Experimente erfordert), der die Qualität der Analyse wirklich testet. Aber ich habe einfach nicht die richtigen Statistiken dafür. Meine (im Nachhinein naive) Hoffnung war es, herauszufinden, was ich studieren kann, um solche Tests zu entwickeln ...

Während ich dies schreibe, wird mir klar, dass die Welt, wenn es sie noch nicht gibt, einen neuen Unterzweig von Statistiken verwenden könnte, der Techniken zum Erkennen und Aufdecken von "Datenquälerei" gewidmet ist. (Natürlich meine ich nicht, von der Metapher "Folter" mitgerissen zu werden: Es geht nicht um "Datenfolter" an sich, sondern um die falschen "Befunde", zu denen es führen kann.)

kjo
quelle
1
@BabakP Dieses Zitat erscheint in sechs Antworten hier, einschließlich in den Statistik-Witzen und den Statistik- Zitatthreads . (Letzteres ist eine gute Quelle für relevante Zitate, wenn Sie jemals nach etwas
suchen
7
Ich glaube, es gibt keinen Unterschied zwischen den Techniken, die beim "Datenschnüffeln" und bei der "explorativen Datenanalyse" angewendet werden.
Scortchi
8
Feynman beantwortet in dem Buch, auf das Sie verweisen, bereits diese Frage: "Wenn er diese Hypothese [die durch Exploration gefunden wurde] testen möchte, ... muss er ein anderes Experiment durchführen." Was Sie anscheinend fragen, ist die Frage, ob Feynman möglicherweise zu extrem gewesen ist ("ein wenig übertrieben"): Inwieweit kann eine formale Prüfung von Hypothesen gerechtfertigt sein, wenn sie anhand derselben Daten entwickelt wurden ?
Whuber
2
@whuber: in der Praxis ist es sogar noch dramatischer, weil oft mit unterschiedlichen Daten getestet wird, aber der gleiche Versuchsaufbau oder die gleiche Art von Experiment versehentlich zu ähnlichen Ergebnissen führen.
Januar
1
@Januar: das kommt auf deine Daten / Experimente an denke ich. Betrachten Sie zB biologische / medizinische Forschung. Für die Daten, die ich sehe, ist die größte Variation normalerweise zwischen Patienten (Probanden). Die Wiederholung des Experiments mit neuen Patienten wird hoffentlich zu ähnlichen Ergebnissen führen, in der Praxis ist dies jedoch häufig nicht der Fall (dh die Vorhersageergebnisse von Modellen, die für die erste Gruppe von Patienten entwickelt wurden, sind viel schlechter als erwartet, was bedeutet, dass eine Überanpassung aufgetreten ist, so dass die Daten im ersten Experiment wurden "gefoltert")
cbeleites unterstützt Monica

Antworten:

22

Es gibt eine Unterscheidung, die manchmal nicht genug Beachtung findet, nämlich die Generierung von Hypothesen gegenüber dem Testen von Hypothesen oder die explorative Analyse gegenüber dem Testen von Hypothesen. Sie dürfen alle schmutzigen Tricks der Welt auf Ihre Idee / Hypothese kommen. Aber wenn Sie es später testen, müssen Sie Ihre Lieblinge rücksichtslos töten.

Ich bin ein Biologe, der ständig mit Daten mit hohem Durchsatz arbeitet, und ja, ich mache dieses "Schneiden und Würfeln" ziemlich oft. In den meisten Fällen wurde das durchgeführte Experiment nicht sorgfältig geplant. oder vielleicht haben diejenigen, die es geplant haben, nicht alle möglichen Ergebnisse berücksichtigt. Oder die allgemeine Einstellung bei der Planung war "mal sehen, was da drin ist". Am Ende haben wir teure, wertvolle und an sich interessante Datensätze, die ich dann umdrehe, um eine Geschichte zu entwickeln.

Aber dann ist es nur eine Geschichte (mögliche Schlafenszeit). Nachdem Sie einige interessante Winkel ausgewählt haben - und hier ist der entscheidende Punkt -, müssen Sie ihn nicht nur mit unabhängigen Datensätzen oder unabhängigen Proben testen, sondern vorzugsweise mit einem unabhängigen Ansatz , einem unabhängigen experimentellen System.

Die Wichtigkeit dieser letzten Sache - ein unabhängiger Versuchsaufbau, nicht nur ein unabhängiger Satz von Messungen oder Proben - wird oft unterschätzt. Wenn wir jedoch 30.000 Variablen auf signifikante Unterschiede testen, kommt es häufig vor, dass ähnliche (aber unterschiedliche) Stichproben aus derselben Kohorte, die mit derselben Methode analysiert wurden, die auf der vorherigen Menge basierende Hypothese nicht verwerfen. Aber dann wenden wir uns einer anderen Art von Experiment und einer anderen Kohorte zu, und unsere Ergebnisse sind das Ergebnis einer methodischen Verzerrung oder sind in ihrer Anwendbarkeit begrenzt.

Deshalb brauchen wir oft mehrere Artikel von mehreren unabhängigen Forschern, um eine Hypothese oder ein Modell wirklich zu akzeptieren.

Ich denke, solche Datenquälereien sind in Ordnung, solange Sie diese Unterscheidung im Auge behalten und sich daran erinnern, was Sie tun, in welchem ​​Stadium des wissenschaftlichen Prozesses Sie sich befinden. Sie können Mondphasen verwenden oder 2 + 2 neu definieren, solange Sie über eine unabhängige Validierung der Daten verfügen . Um es auf ein Bild zu setzen:

Bildbeschreibung hier eingeben

Leider gibt es diejenigen, die ein Microarray bestellen, um eine Arbeit zu runden, nachdem mehrere Experimente durchgeführt wurden und keine Geschichte aufgetaucht ist, in der Hoffnung, dass die Hochdurchsatzanalyse etwas zeigt. Oder sie sind verwirrt über die ganze Sache Hypothesentest vs. Generation.

Januar
quelle
Ich nehme an, man könnte das, was ich als "Hypothesengenerierung" angesehen habe, interpretieren, aber das Ziel der Manipulationen, von denen ich spreche, ist auf jeden Fall , die aus den "gefolterten" Daten erhaltenen Ergebnisse zu veröffentlichen und dies auf höchstem Niveau -Aufschlagjournal, das das Papier annimmt. Unnötig zu erwähnen, dass solche Papiere niemals einen Hinweis auf die gequälten Ursprünge ihrer Entdeckungen enthalten. Tatsächlich, AFAICT, sind die Autoren davon überhaupt nicht betroffen. Und doch denke ich, dass die Mehrheit der Leser solcher Zeitungen die Ergebnisse stark
ignorieren
1
@kjo: Die Erstellung von Hypothesen ist Teil des wissenschaftlichen Prozesses, der definitiv veröffentlicht werden kann . Das ist also kein Grund.
cbeleites unterstützt Monica
@Januar: Sie haben vergessen, das DoE zu erwähnen. "Nehmen Sie alle Proben, die wir bekommen können - es werden sowieso zu wenige sein", was das häufigste DoE ist, auf das ich stoße.
cbeleites unterstützt Monica
@cbeleites: Nun, ich würde nicht davon träumen, diese Einstellung im Allgemeinen zu kritisieren. In der Regel könnten die Experimente von einer größeren Anzahl von Wiederholungen profitieren. Ich stimme jedoch zu, dass Experimentatoren häufig dazu neigen, so viele Bedingungen (Probentypen, Stämme, Varianten, Klassen usw.) wie nur physikalisch möglich zu berücksichtigen, was die Analyse zu einem Albtraum macht und manchmal die Frage völlig verdunkelt.
Januar
12

Herman Friedman, mein Lieblingsprofessor an der Graduiertenschule, sagte das immer

"Wenn Sie nicht überrascht sind, haben Sie nichts gelernt"

Die strikte Vermeidung von Dingen, mit Ausnahme der strengsten Prüfung von a priori definierten Hypothesen, schränkt Ihre Fähigkeit, überrascht zu werden, erheblich ein.

Ich denke, das Wichtigste ist, dass wir ehrlich sind, was wir tun. Wenn wir uns in einem hochgradig explorativen Modus befinden, sollten wir das sagen. Am anderen Ende sagte eine mir bekannte Professorin zu ihrer Studentin, sie solle ihre Hypothesen ändern, da sich herausstellte, dass die ursprünglichen Hypothesen nicht signifikant waren.

Peter Flom - Wiedereinsetzung von Monica
quelle
4
Es ist nichts Falsches daran, genau definierte Hypothesen von vornherein zu testen und dieselben Daten abzurufen, um die nächsten genau definierten Hypothesen von vornherein zu prüfen. Und wenn wir uns in einem noch etwas explorativen Modus befinden, sollten wir dies sagen - sagen Sie einfach, was wir wirklich getan haben - und andere entscheiden lassen, mit wie viel Salz sie unsere Ergebnisse erhalten möchten, auch wenn sie von ihrer Gültigkeit überzeugt sind uns selbst. Ich möchte dieser Antwort mehr als eine Stimme geben, um die Ehrlichkeit zu betonen.
Scortchi
7

Lassen Sie mich einige Punkte hinzufügen:

  • Zunächst einmal ist die Erstellung von Hypothesen ein wichtiger Bestandteil der Wissenschaft. Und nicht vorhersagbare (explorative / beschreibende) Ergebnisse können veröffentlicht werden.

  • IMHO ist das Problem nicht per se, dass Datenexploration für einen Datensatz verwendet wird und nur Teile dieser Ergebnisse veröffentlicht werden. Die Probleme sind

    • nicht beschreiben, wie viel ausprobiert wurde
    • Daraufhin werden Schlussfolgerungen gezogen, als wäre die Studie eine Validierungsstudie für ein Vorhersagemodell / eine Hypothesenteststudie
  • Wissenschaft und Methodenentwicklung sind weitaus allgemeinere iterative Prozesse als nur das Generieren von Hypothesen - Testen - Generieren neuer Hypothesen - Testen .... IMHO ist es eine Frage der fachlichen Beurteilung, welche Art von korrektem Verhalten in welchem ​​Stadium erforderlich ist (siehe Beispiel) unten).

Was ich mache:

  • versuche die Leute auf die daraus resultierenden optimistischen Vorurteile aufmerksam zu machen.
    Wenn ich eine Chance habe, zeige ich es auch Betroffenen auch, wie groß der Unterschied ist, der zumeist bei einem niedrigeren Level desselben Problems möglich ist, z Schätzungen von Routinen zur Optimierung von Hyperparametern, z. B. die Rastersuche nach SVM-Parametern, "kombinierte Modelle" wie PCA-LDA usw. Nicht wirklich durchführbar für das Ausbaggern realer Daten, da mir bisher niemand das Geld zum Verdienen gegeben hat eine echte Kopie einer Studie in vernünftiger Größe ...)
  • Für Arbeiten, für die ich Mitautor bin: Bestehen Sie auf einer Diskussion der Grenzen der Schlussfolgerungen. Stellen Sie sicher, dass die Schlussfolgerungen nicht allgemeiner formuliert werden, als es die Studie zulässt.
  • Ermutigen Sie die Mitarbeiter, ihr Expertenwissen über das Thema der Studie und den Prozess der Datengenerierung zu nutzen, um zu entscheiden wie die Daten behandelt werden sollen, anstatt eine kostenintensive Optimierung (in Bezug auf die Stichprobengröße, die Sie für eine ordnungsgemäße Durchführung benötigen) durchzuführen Modell- "Hyper" -Parameter (z. B. welche Art von Vorverarbeitung verwendet werden soll).
  • Parallel dazu: Machen Sie die Leute darauf aufmerksam, wie kostspielig dieses Optimierungsgeschäft ist, wenn es ordnungsgemäß durchgeführt wird (ob dies als Exploration bezeichnet wird oder nicht, ist irrelevant, wenn es falsch durchgeführt wird, werden ähnliche Ergebnisse wie Datenbaggerungen erzielt), z. B. Beleites, C. und Neugebauer , U. und Bocklitz, T. und Krafft, C. und Popp, J .: Stichprobengrößenplanung für Klassifikationsmodelle. Anal Chim Acta, 2013, 760, 25 & ndash; 33. DOI: 10.1016 / j.aca.2012.11.007
    akzeptiertes Manuskript auf arXiv: 1211.1323
  • Eine Studie, die dieses blinde
    Herumprobieren für oftmals zwecklos hält, z. B. J. Engel, J. Gerretzen, E. Szymańska, J. Jansen, G. Downey, L. Blanchet, LMC Buydens: Mit Trends in der Vorverarbeitung brechen ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015 (Sie haben eine Vielzahl von Kombinationen von Vorverarbeitungsschritten
    ausprobiert und festgestellt, dass nur sehr wenige zu besseren Modellen führen als überhaupt keine Vorverarbeitung)

  • Betonen Sie, dass ich meine Daten nicht mehr als nötig quäle:
    Beispiel :

    Die gesamte Vorverarbeitung wurde ausschließlich unter Verwendung von spektroskopischem Wissen entschieden, und es wurde keine datengesteuerte Vorverarbeitung durchgeführt.

    Ein Follow-up Paper , das die gleichen Daten wie das Beispiel für (unterschiedliche) Theorieentwicklungen verwendet, liest

    Die gesamte Vorverarbeitung wurde durch spektroskopisches Wissen entschieden, es wurden keine datengesteuerten Schritte eingeschlossen und es wurde keine Parameteroptimierung durchgeführt. Wir haben jedoch überprüft, dass eine PLS-Projektion [45] der Spektren auf 25 latente Variablen als Vorverarbeitung für das LR-Training zu nur geringfügigen Änderungen der Vorhersage führte (siehe Abbildung S.2).

    Denn in der Zwischenzeit wurde ich ausdrücklich gebeten (auf einer Konferenz eines Herausgebers der Zeitschrift CILS), die Modelle mit der PLS-Vorverarbeitung zu vergleichen.

  • Nehmen Sie einen praktischen Standpunkt ein: ZB habe ich in der oben verlinkten Astrozytom-Studie natürlich noch einige Punkte entschieden, nachdem ich mir die Daten angesehen hatte (z. B. welche Intensitätsschwelle Messungen von außerhalb der Probe entspricht - die dann verworfen wurden). Andere Entscheidungen, von denen ich weiß, dass sie unkritisch sind (lineare vs. quadratische Basislinie): Meine Erfahrung mit dieser Art von Daten legt nahe, dass sich daran nicht viel ändert - was auch in perfekter Übereinstimmung mit dem steht, was Jasper Engel bei verschiedenen Daten ähnlicher Art festgestellt hat Ich würde nicht erwarten, dass die Entscheidung über den Basistyp durch Betrachtung der Daten zu einer großen Verzerrung führt (das Papier liefert ein Argument, warum dies sinnvoll ist).
    Basierend auf der Studie, die wir durchgeführt haben, können wir nun sagen, was als nächstes angegangen und was geändert werden sollte. Und da wir uns noch in einem vergleichsweise frühen Stadium der Methodenentwicklung befinden (Betrachtung von Ex-vivo- Proben), lohnt es sich nicht , alle "Hausaufgaben" durchzuarbeiten, die letztendlich benötigt werden, bevor die Methode in vivo angewendet werden kann . Zum gegenwärtigen Zeitpunkt der Einstufung von Astrozytomen ist die Validierung der Resampling-Methode eine sinnvollere Wahl als ein externes Test-Set. Ich betone weiterhin, dass irgendwann eine wirklich externe Validierungsstudie erforderlich sein wird, da einige Leistungsmerkmale nur auf diese Weise gemessen werden können (z. B. die Auswirkungen von Instrumentendrift / der Nachweis, dass wir diese korrigieren können). Aber gerade jetzt, während wir noch mit Ex-vivo spielenEnglisch: emagazine.credit-suisse.com/app/art ... = 157 & lang = en Der Gewinn an nützlichem Wissen aus einer ordnungsgemäßen Ex - vivo - Validierungsstudie ist zu gering, als dass sich der Aufwand lohnen würde (IMHO: sofern nicht anders angegeben) Dies wurde durchgeführt, um die Abweichung aufgrund von Datenbaggerungen zu messen.

  • Ich habe einmal ein Argument über Statistik- und Berichtsstandards gelesen und darüber, ob dies für eine Zeitschrift als notwendig erachtet werden sollte (ich weiß nicht mehr, welche), was mich überzeugt hat: Es wurde die Idee geäußert, dass es nicht erforderlich ist, dass die Redakteure es versuchen sich auf einen Standard einigen und diesen durchsetzen (was viele vergebliche Diskussionen hervorrufen wird), weil:

    • wer die richtigen techniken anwendet, ist sich dessen meist sehr bewusst / stolz und wird (und sollte) deshalb ausführlich berichten, was getan wurde.
    • Wenn ein bestimmter Punkt (z. B. Datenbaggerung, nicht patientenunabhängige Validierung) nicht eindeutig festgelegt ist, wird von den Gutachtern / Lesern standardmäßig davon ausgegangen, dass die Studie die in dieser Frage enthaltenen Grundsätze nicht eingehalten hat (möglicherweise, weil sie dies nicht getan haben). ich weiß es nicht besser)
cbeleites unterstützt Monica
quelle
4

Manchmal sind die Dinge, die Sie als "Datenquälerei" ansehen, nicht wirklich. Es ist nicht immer im Voraus klar, was genau Sie mit den Daten tun werden, um zu sagen, was Sie für die echten Ergebnisse des Experiments halten, bis Sie es sehen.

Beispielsweise möchten Sie bei Reaktionszeitdaten für eine Entscheidungsaufgabe häufig Zeiten ablehnen, bei denen es nicht um die Entscheidung geht (dh, wenn sie so schnell ablaufen, raten sie offensichtlich nur und treffen keine Entscheidung). Sie können die Genauigkeit der Entscheidung gegen RT zeichnen, um zu sehen, wo das Raten im Allgemeinen stattfindet. Aber bis Sie dieses spezielle Paradigma getestet haben, können Sie nicht wissen, wo die Grenzwerte liegen (rechtzeitig, nicht genau). Für einige Beobachter sieht ein solches Verfahren so aus, als würden die Daten gefoltert, aber solange es nichts direkt mit den Hypothesentests zu tun hat (Sie passen es nicht auf der Grundlage von Tests an), werden die Daten nicht gefoltert.

Das Durchsuchen von Daten während eines Experiments ist in Ordnung, solange es richtig durchgeführt wird. Es ist wahrscheinlich unethisch, Ihr Experiment in eine Black Box zu stecken und die Analyse nur dann durchzuführen, wenn die geplante Anzahl von Probanden ausgeführt wurde. Manchmal ist es schwer zu sagen, dass es Probleme mit dem Experiment gibt, bis Sie sich die Daten ansehen und einige so schnell wie möglich ansehen sollten. Das Peeken von Daten wird stark herabgesetzt, da es gleichbedeutend damit ist, zu sehen, ob p <0,05 ist und zu entscheiden, fortzufahren. Es gibt jedoch eine Vielzahl von Kriterien, anhand derer Sie entscheiden können, ob Sie mit dem Sammeln fortfahren möchten, ohne die Fehlerquote zu beeinträchtigen.

Angenommen, Sie möchten sicherstellen, dass Ihre Varianzschätzung innerhalb eines bekannten wahrscheinlichen Bereichs liegt. Bei kleinen Stichproben können Abweichungsschätzungen sehr weit entfernt sein, sodass Sie zusätzliche Daten erfassen, bis Sie wissen, dass die Stichprobe repräsentativer ist. In der folgenden Simulation erwarte ich, dass die Varianz in jeder Bedingung 1 ist. Ich werde etwas wirklich Verrücktes tun und jede Gruppe unabhängig für 10 Proben abtasten und dann Probanden hinzufügen, bis die Varianz nahe bei 1 liegt.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Also habe ich die Probenahme einfach verrückt gemacht und meine Varianzen nahezu erwartungsgemäß gemacht, und ich habe immer noch keinen großen Einfluss auf das Alpha (es ist etwas unter 0,05). Ein paar weitere Einschränkungen wie die N müssen in jeder Gruppe gleich sein und dürfen nicht mehr als 30 sein, und Alpha stimmt ziemlich genau mit 0,05 überein. Aber was ist mit SE? Was wäre, wenn ich stattdessen versuchen würde, der SE einen bestimmten Wert zuzuweisen? Das ist eine wirklich interessante Idee, da ich die Breite des CI im Voraus einstelle (aber nicht den Ort).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Auch hier hat Alpha einen kleinen Betrag geändert, obwohl ich N erlaubt habe, von den ursprünglichen 10 auf Basis von Daten-Snooping bis zu 46 zu durchstreifen. Noch wichtiger ist, dass alle SEs in jedem Experiment in einen engen Bereich fallen. Es ist einfach, eine kleine Alpha-Anpassung vorzunehmen, um das zu beheben, wenn es ein Problem ist. Der Punkt ist, dass einige Daten-Snooping wenig bis gar keinen Schaden anrichten und sogar Vorteile bringen können.

(Übrigens ist das, was ich zeige, kein Wundermittel. Sie reduzieren auf lange Sicht nicht die Anzahl der Probanden, die dies tun, da die Leistung für die Simulation des variierenden N ungefähr gleich der für eine Simulation der durchschnittlichen N ist )

Keiner der obigen Punkte widerspricht der jüngsten Literatur zum Hinzufügen von Probanden nach Beginn eines Experiments. In diesen Studien wurden Simulationen betrachtet, bei denen Sie Probanden nach einem Hypothesentest hinzugefügt haben, um den p-Wert zu senken. Das ist immer noch schlecht und kann Alpha außerordentlich aufblasen. Außerdem mag ich die Antworten von Januar und Peter Flom sehr. Ich wollte nur darauf hinweisen, dass das Betrachten von Daten während des Sammelns und sogar das Ändern eines geplanten N während des Sammelns nicht unbedingt schlechte Dinge sind.

John
quelle
Keines dieser Dinge ist in dem Sinne „in Ordnung“, dass es die Stichprobenverteilung Ihrer Teststatistik nicht beeinflusst. Vollkommen vernünftige Antworten auf Überraschungen (vgl. Antwort von Peter), aber sie verwässern etwas die Bestätigungscharakteristik Ihres Experiments und erhöhen die "Freiheitsgrade der Forscher". Um Überraschungen zu vermeiden, führen wir Pilotstudien durch, um das Protokoll zu korrigieren, und definieren vorab Stoppregeln, die bei der Analyse berücksichtigt werden. Das Ziel ist ein genau definiertes Verfahren, das unabhängig repliziert werden kann, um die Gültigkeit Ihrer Ergebnisse zu demonstrieren.
Scortchi
Es steht Ihnen frei, die Simulationen selbst durchzuführen. Wenn Sie jedoch eine auf Abweichungen basierende Stoppregel (über einem vernünftigen Minimum von N) anwenden, hat dies keine Auswirkungen auf das Alpha und erzeugt eine erwartete Leistung. Sie können sogar eine SE-basierte Stop-Regel haben und konsistente SEs erhalten. Diese haben keinen Einfluss auf Alpha oder Beta. Sie können einfach keine pstoppende Regel haben. Bei allen Kritikpunkten an der Änderung von N geht es darum, dies nach einem Hypothesentest zu tun (es sollten auch andere Dinge enthalten sein). Es gibt das Potenzial, dass dies Versuchung verursacht ... aber ich ignoriere das.
John
Bezüglich der Reaktionszeitverteilung schlagen Sie vor, dass es besser ist, einen festen Schnittpunkt basierend auf einem Piloten auszuwählen, als herauszufinden, wann jedes Subjekt basierend auf logistischer Regression schätzt und seinen eigenen Schnittpunkt verwendet. (Natürlich ist der Genauigkeitsschnittpunkt festgelegt, nur nicht die Reaktionszeit eins).
John
(1) Varianzbasierte Stoppregel: Sie beeinflusst die Varianzschätzung und kann daher die Fehlerraten beeinflussen, wenn das Experiment analysiert wird, als ob die Probengröße zuvor festgelegt worden wäre. Es gibt eine Spannung zwischen dem Vorbehalt von "über einem vernünftigen Minimum N" in Ihrem Kommentar und den "kleinen Stichprobengrößen", auf die Sie in Ihrer Antwort hingewiesen haben. Sie haben zweifellos die statistische Information, um zu wissen, welche Annäherungen wann gut genug sind, aber nicht jeder tut es. Ein unanfechtbarer Ansatz besteht im Allgemeinen darin, die Abbruchregel vor dem Experiment klar zu definieren.
Scortchi
(2) Reaktionszeitverteilung: Nein (obwohl ich zugegebenermaßen so etwas im Sinn hatte); Ich schlug vor, dass die Methode zur Entfernung unzuverlässiger Beobachtungen besser aus einer Pilotstudie entwickelt und dann in einem Bestätigungsexperiment angewendet werden sollte.
Scortchi
0

Dies ist in der Tat ein kulturelles Problem des unausgewogenen Denkens, bei dem Publikationsverzerrungen positive Ergebnisse begünstigen und unser Wettbewerb erfordert, dass Redakteure und Forscher interessante Ergebnisse hervorbringen, die beispielsweise im Sinne von neuartig oder umstritten sind die Ergebnisse einer anderen Person widerlegen. In der medizinischen Forschung sind erhebliche Fortschritte zu verzeichnen, um dieses Problem durch die obligatorische Registrierung von Studien und die Veröffentlichung von Ergebnissen zu lösen. Aufzeichnungen über abgebrochene Studien sollen ebenfalls veröffentlicht werden. Ich verstehe, dass eine Veröffentlichung in Fachzeitschriften für erfolglose Recherchen möglicherweise nicht praktikabel ist. Daher ist geplant, eine öffentlich zugängliche Datenbank zu führen. Ungewöhnliche Ergebnisse, die nicht reproduziert werden können, sind nicht unbedingt eine Folge von Vergehen, wie mit vielleicht 50,

Auch die Anwendung unterschiedlicher Methoden ist nicht unbedingt eine Lösung. Welcher Chemiker würde beispielsweise Reagenzien unter verschiedenen Bedingungen auf unterschiedliche Weise mischen und selbstverständlich dieselben Ergebnisse erwarten?

Robert Jones
quelle