Sind Korrekturen für mehrere Vergleiche für informelle / visuelle „Mehrfachvergleiche“ erforderlich?

9

Ich habe eine Art philosophische Frage, wann eine Mehrfachvergleichskorrektur notwendig ist.

Ich messe ein kontinuierliches zeitveränderliches Signal (zu diskreten Zeitpunkten). Von Zeit zu Zeit finden separate Ereignisse statt, und ich möchte feststellen, ob diese Ereignisse einen signifikanten Einfluss auf das gemessene Signal haben.

So kann ich das mittlere Signal nehmen, das auf ein Ereignis folgt, und normalerweise kann ich dort einen Effekt mit einem bestimmten Peak sehen. Wenn ich die Zeit dieses Peaks wähle und einen T-Test durchführe, um festzustellen, ob er signifikant ist, oder wenn das Ereignis nicht eintritt, muss ich dann mehrere Vergleichskorrekturen durchführen?

Obwohl ich immer nur einen t-Test durchgeführt habe (berechneter Wert 1), habe ich bei meiner ersten visuellen Inspektion den Test mit dem größten potenziellen Effekt aus den (sagen wir) 15 verschiedenen Zeitpunkten nach der Verzögerung ausgewählt, die ich aufgezeichnet habe. Muss ich für die 15 Tests, die ich nie durchgeführt habe, mehrere Vergleichskorrekturen durchführen?

Wenn ich keine visuelle Inspektion verwenden würde, sondern nur den Test bei jeder Ereignisverzögerung durchführen und die höchste auswählen würde, müsste ich dies sicherlich korrigieren. Ich bin nur ein wenig verwirrt darüber, ob ich die Auswahl der besten Verzögerung nach einem anderen Kriterium als dem Test selbst treffen muss (z. B. visuelle Auswahl, höchster Mittelwert usw.).

Throp
quelle

Antworten:

11

Wenn Sie eine visuelle Vorauswahl treffen, wo der Test durchgeführt werden soll, sollten Sie dies bereits korrigieren: Ihre Augen und Ihr Gehirn umgehen bereits einige Unsicherheiten in den Daten, die Sie nicht berücksichtigen, wenn Sie den Test zu diesem Zeitpunkt einfach durchführen .

Stellen Sie sich vor, Ihr "Peak" ist wirklich ein Plateau, und Sie wählen den Unterschied "Peak" von Hand aus und führen dann einen Test durch, der sich als kaum signifikant herausstellt. Wenn Sie den Test etwas weiter links oder rechts ausführen, kann sich das Ergebnis ändern. Auf diese Weise müssen Sie den Prozess der Vorauswahl berücksichtigen: Sie haben nicht ganz die Gewissheit, die Sie angeben! Sie verwenden die Daten für die Auswahl, sodass Sie dieselben Informationen effektiv zweimal verwenden.

In der Praxis ist es natürlich sehr schwierig, so etwas wie einen Handpicking-Prozess zu erklären, aber das bedeutet nicht, dass Sie dies nicht tun sollten (oder zumindest die resultierenden Konfidenzintervalle / Testergebnisse mit einem Körnchen Salz nehmen / angeben).

Schlussfolgerung : Sie sollten immer mehrere Vergleiche korrigieren, wenn Sie mehrere Vergleiche durchführen, unabhängig davon, wie Sie diese Vergleiche ausgewählt haben. Wenn sie nicht ausgewählt wurden, bevor die Daten angezeigt wurden, sollten Sie dies zusätzlich korrigieren.

Hinweis: Eine Alternative zur Korrektur der manuellen Vorauswahl (z. B. wenn dies praktisch unmöglich ist) besteht wahrscheinlich darin, Ihre Ergebnisse so anzugeben, dass sie offensichtlich einen Verweis auf die manuelle Auswahl enthalten. Aber das ist wohl keine "reproduzierbare Forschung".

Nick Sabbe
quelle
1
Wenn Sie jedoch immer Korrekturen vornehmen, erhöht sich Ihre Fehlerrate vom Typ II. Wenn Sie alle signifikanten Ergebnisse vor der Korrektur haben, können Sie sie alle nach der Korrektur verlieren, ohne die geringen Chancen zu berücksichtigen, alle signifikanten Ergebnisse zu erhalten. Dies kann von den Kosten eines Fehlers vom Typ I oder Typ II in Ihrem Kontext abhängen.
Etienne Low-Décarie
Nick gab die Antwort, die ich gerne gegeben hätte, wenn ich zuerst geantwortet hätte. In der Ersteinrichtung sagten Sie (mkpitas) jedoch, dass Sie die Multiplizitätskorrektur nicht durchführen müssten, wenn Sie die 15 Tests tatsächlich durchführen würden. Ich verstehe nicht, warum du das sagen würdest. Ich denke in diesem Fall wird die Notwendigkeit einer Multiplizitätskorrektur nur offensichtlicher. @etienne Ihr Punkt gilt für die FWER-Korrektur, die bei der Kontrolle von Typ-I-Fehlern sehr streng ist. Wenn Sie FDR verwenden, werden Sie nicht so viel Energie opfern.
Michael R. Chernick
8

Vor langer Zeit las ich in einem meiner ersten Statistikkurse darüber in einem Text (ich glaube, es war eine alte Ausgabe von Cohens Regressionsbuch), in dem stand: "Dies ist eine Frage, welche vernünftigen Leute sich unterscheiden können."

Mir ist nicht klar, dass jemand jemals mehrere Vergleiche korrigieren muss, und wenn ja, über welchen Zeitraum oder welche Reihe von Vergleichen er korrigieren sollte. Jeder Artikel? Jede Regression oder ANOVA? Alles, was sie zu einem Thema veröffentlichen? Was ist mit dem, was ANDERE Leute veröffentlichen?

Während Sie in Ihrer ersten Zeile schreiben, ist es philosophisch.

Peter Flom - Monica wieder einsetzen
quelle
4
Sie haben Recht, dass es eine Frage gibt, wie viele Vergleiche durchgeführt werden, aber ich denke nicht, dass dies Ihre Schlussfolgerung impliziert. Vernünftige Personen können sich unterscheiden, weil sie unterschiedliche Ziele und unterschiedliche Bewertungen (Verlustfunktionen) für die möglichen Ergebnisse haben. Wenn Sie mehrere Vergleiche korrigieren sollten, liegt dies daran, dass der erwartete Verlust besser ist. Als solches ist dies ein äußerst praktisches Thema, keine bloße "Philosophie", und es gibt rationale Wege, um es zu lösen, auf die sich vernünftige Leute einigen können.
whuber
2
@whuber Sie sind sicherlich in einigen Situationen richtig. Manchmal gibt es eine sinnvolle Verlustfunktion, obwohl es oft schwierig ist, eine explizit anzugeben. Aber manchmal, z. B. bei Erkundungsarbeiten, habe ich Probleme zu erkennen, wie eine Verlustfunktion möglich ist. Natürlich bringt uns die Idee der gesamten Verlustfunktion von der gralartigen Statur von p = 0,05 und der typischen Annahme, dass Potenz = 0,8 oder 0,9 gut genug ist, weg und auf (meiner Meinung nach) vernünftigere Idee dazu Wir legen diese aus sachlicheren Gründen fest.
Peter Flom - Monica wieder einsetzen
1
Vielen Dank, dass Sie den Umfang und den Geist Ihrer Antwort geklärt haben, Peter.
whuber
4
Ich werde wütend, wenn Leute sagen, dass Multiplizitätstests keine Rolle spielen. Ich sehe diese Haltung allzu oft in der medizinischen Forschung zum Ausdruck gebracht. Sie können auf viele Artikel verweisen, die zu falschen Schlussfolgerungen kamen, weil die Vielfalt ignoriert wurde. Es ist wichtig, keine Artikel mit falschen Schlussfolgerungen in der Medizin zu veröffentlichen, da dies die Behandlung von Patienten und das Leben beeinflusst. Die Multiplizität trägt zur Publikationsverzerrung bei (denn wenn ein Problem mehrmals untersucht wird, werden nur die Studien mit signifikanten Ergebnissen veröffentlicht), was ein ernstes Problem in der Metaanalyse darstellt.
Michael R. Chernick
1
@ MichaelChernick, ich stimme zu - es ist sehr problematisch, wenn Leute mehrere Testkorrekturen ignorieren. Ich denke jedoch, dass Peter einen guten Punkt anspricht - was sollte der Umfang der Mehrfachtests sein? Alle Tests in einem einzigen Papier durchgeführt? Alle Tests mit einem einzigen Datensatz durchgeführt? Alle Tests seit Beginn der Zeit durchgeführt? Es scheint keine eindeutig richtige Antwort zu geben.
Makro
4

Wenn Sie versuchen, einmalige Entscheidungen über die Realität zu treffen und die Rate steuern möchten, mit der Sie die Nullhypothese fälschlicherweise ablehnen, verwenden Sie den Nullhypothesen-Signifikanztest (NHST) und möchten die Korrektur für mehrere Vergleiche verwenden. Wie Peter Flom in seiner Antwort feststellt, ist jedoch unklar, wie die Vergleiche definiert werden sollen, auf die die Korrektur angewendet werden soll. Die einfachste Wahl ist die Reihe von Vergleichen, die auf einen bestimmten Datensatz angewendet werden, und dies ist der häufigste Ansatz.

Wissenschaft ist jedoch wohl am besten als kumulatives System zu verstehen, bei dem einmalige Entscheidungen nicht erforderlich sind und tatsächlich nur dazu dienen, die Effizienz der Anhäufung von Beweisen zu verringern (die erhaltenen Beweise auf ein einziges Informationsbit zu reduzieren). Wenn man also einen richtig wissenschaftlichen Ansatz zur statistischen Analyse verfolgt und NHST für Werkzeuge wie Wahrscheinlichkeitsverhältnisse (möglicherweise auch Bayes'sche Ansätze) meidet, verschwindet das "Problem" mehrerer Vergleiche.

Mike Lawrence
quelle
1

Eine mögliche Alternative zur Korrektur besteht je nach Ihrer Frage darin, die Signifikanz der Summe der p-Werte zu testen. Sie können sich dann sogar für Tests bestrafen, die nicht durch Hinzufügen hoher p-Werte durchgeführt werden.

Erweiterungen (die keine Unabhängigkeit erfordern) der Fisher-Methode (die Unabhängigkeit des Tests erfordern) könnten verwendet werden.

Z.B. Kosts Methode

Etienne Low-Décarie
quelle
Dies sind Beispiele für Verfahren, die in der Metaanalyse verwendet werden, wenn die einzelnen Studien nur p-Werte liefern oder die Daten nicht kombiniert werden können, aber für jede Studie ein p-Wert berechnet wird. Auch die Kombinationsmethode von Fisher und die inverse Normalen sind Möglichkeiten, Stoppregeln in adaptiven Designs zu erstellen.
Michael R. Chernick
1

Eine sehr wichtige Sache, an die Sie sich erinnern sollten, ist, dass die Korrektur mehrerer Tests unabhängige Tests voraussetzt. Wenn die Daten, die Sie analysieren, nicht unabhängig sind, werden die Dinge etwas komplizierter als nur die Anzahl der durchgeführten Tests zu korrigieren. Sie müssen die Korrelation zwischen den zu analysierenden Daten berücksichtigen, oder Ihre Korrektur wird wahrscheinlich viel zu konservativ sein, und Sie werden es tun haben eine hohe Typ II Fehlerrate. Ich habe festgestellt, dass Kreuzvalidierung, Permutationstests oder Bootstrapping effektive Methoden sein können, um mit mehreren Vergleichen umzugehen, wenn sie ordnungsgemäß verwendet werden. Andere haben die Verwendung von FDR erwähnt, dies kann jedoch zu falschen Ergebnissen führen, wenn Ihre Daten weitgehend unabhängig sind, da davon ausgegangen wird, dass die p-Werte für alle Tests unter Null einheitlich sind.

Matt
quelle
2
p