Ich habe eine Art philosophische Frage, wann eine Mehrfachvergleichskorrektur notwendig ist.
Ich messe ein kontinuierliches zeitveränderliches Signal (zu diskreten Zeitpunkten). Von Zeit zu Zeit finden separate Ereignisse statt, und ich möchte feststellen, ob diese Ereignisse einen signifikanten Einfluss auf das gemessene Signal haben.
So kann ich das mittlere Signal nehmen, das auf ein Ereignis folgt, und normalerweise kann ich dort einen Effekt mit einem bestimmten Peak sehen. Wenn ich die Zeit dieses Peaks wähle und einen T-Test durchführe, um festzustellen, ob er signifikant ist, oder wenn das Ereignis nicht eintritt, muss ich dann mehrere Vergleichskorrekturen durchführen?
Obwohl ich immer nur einen t-Test durchgeführt habe (berechneter Wert 1), habe ich bei meiner ersten visuellen Inspektion den Test mit dem größten potenziellen Effekt aus den (sagen wir) 15 verschiedenen Zeitpunkten nach der Verzögerung ausgewählt, die ich aufgezeichnet habe. Muss ich für die 15 Tests, die ich nie durchgeführt habe, mehrere Vergleichskorrekturen durchführen?
Wenn ich keine visuelle Inspektion verwenden würde, sondern nur den Test bei jeder Ereignisverzögerung durchführen und die höchste auswählen würde, müsste ich dies sicherlich korrigieren. Ich bin nur ein wenig verwirrt darüber, ob ich die Auswahl der besten Verzögerung nach einem anderen Kriterium als dem Test selbst treffen muss (z. B. visuelle Auswahl, höchster Mittelwert usw.).
Vor langer Zeit las ich in einem meiner ersten Statistikkurse darüber in einem Text (ich glaube, es war eine alte Ausgabe von Cohens Regressionsbuch), in dem stand: "Dies ist eine Frage, welche vernünftigen Leute sich unterscheiden können."
Mir ist nicht klar, dass jemand jemals mehrere Vergleiche korrigieren muss, und wenn ja, über welchen Zeitraum oder welche Reihe von Vergleichen er korrigieren sollte. Jeder Artikel? Jede Regression oder ANOVA? Alles, was sie zu einem Thema veröffentlichen? Was ist mit dem, was ANDERE Leute veröffentlichen?
Während Sie in Ihrer ersten Zeile schreiben, ist es philosophisch.
quelle
Wenn Sie versuchen, einmalige Entscheidungen über die Realität zu treffen und die Rate steuern möchten, mit der Sie die Nullhypothese fälschlicherweise ablehnen, verwenden Sie den Nullhypothesen-Signifikanztest (NHST) und möchten die Korrektur für mehrere Vergleiche verwenden. Wie Peter Flom in seiner Antwort feststellt, ist jedoch unklar, wie die Vergleiche definiert werden sollen, auf die die Korrektur angewendet werden soll. Die einfachste Wahl ist die Reihe von Vergleichen, die auf einen bestimmten Datensatz angewendet werden, und dies ist der häufigste Ansatz.
Wissenschaft ist jedoch wohl am besten als kumulatives System zu verstehen, bei dem einmalige Entscheidungen nicht erforderlich sind und tatsächlich nur dazu dienen, die Effizienz der Anhäufung von Beweisen zu verringern (die erhaltenen Beweise auf ein einziges Informationsbit zu reduzieren). Wenn man also einen richtig wissenschaftlichen Ansatz zur statistischen Analyse verfolgt und NHST für Werkzeuge wie Wahrscheinlichkeitsverhältnisse (möglicherweise auch Bayes'sche Ansätze) meidet, verschwindet das "Problem" mehrerer Vergleiche.
quelle
Eine mögliche Alternative zur Korrektur besteht je nach Ihrer Frage darin, die Signifikanz der Summe der p-Werte zu testen. Sie können sich dann sogar für Tests bestrafen, die nicht durch Hinzufügen hoher p-Werte durchgeführt werden.
Erweiterungen (die keine Unabhängigkeit erfordern) der Fisher-Methode (die Unabhängigkeit des Tests erfordern) könnten verwendet werden.
Z.B. Kosts Methode
quelle
Eine sehr wichtige Sache, an die Sie sich erinnern sollten, ist, dass die Korrektur mehrerer Tests unabhängige Tests voraussetzt. Wenn die Daten, die Sie analysieren, nicht unabhängig sind, werden die Dinge etwas komplizierter als nur die Anzahl der durchgeführten Tests zu korrigieren. Sie müssen die Korrelation zwischen den zu analysierenden Daten berücksichtigen, oder Ihre Korrektur wird wahrscheinlich viel zu konservativ sein, und Sie werden es tun haben eine hohe Typ II Fehlerrate. Ich habe festgestellt, dass Kreuzvalidierung, Permutationstests oder Bootstrapping effektive Methoden sein können, um mit mehreren Vergleichen umzugehen, wenn sie ordnungsgemäß verwendet werden. Andere haben die Verwendung von FDR erwähnt, dies kann jedoch zu falschen Ergebnissen führen, wenn Ihre Daten weitgehend unabhängig sind, da davon ausgegangen wird, dass die p-Werte für alle Tests unter Null einheitlich sind.
quelle