Warum ist der Mehrfachvergleich ein Problem?

44

Ich finde es schwierig zu verstehen, worum es bei mehreren Vergleichen wirklich geht . Mit einer einfachen Analogie wird gesagt, dass eine Person, die viele Entscheidungen treffen wird, viele Fehler machen wird. Daher wird sehr konservative Vorsichtsmaßnahme angewendet, wie die Bonferroni-Korrektur, um die Wahrscheinlichkeit, dass diese Person einen Fehler macht, so gering wie möglich zu halten.

Aber warum interessiert es uns, ob die Person bei allen Entscheidungen, die sie getroffen hat, einen Fehler gemacht hat, anstatt den Prozentsatz der falschen Entscheidungen?

Lassen Sie mich versuchen zu erklären, was mich mit einer anderen Analogie verwechselt. Angenommen, es gibt zwei Richter, einer ist 60 Jahre alt und der andere ist 20 Jahre alt. Dann sagt die Bonferroni-Korrektur dem 20-Jährigen, er solle bei der Entscheidung für die Hinrichtung so konservativ wie möglich sein, weil er noch viele Jahre als Richter tätig sein und noch viele weitere Entscheidungen treffen wird. Deshalb muss er vorsichtig sein. Aber der eine mit 60 wird möglicherweise bald in Rente gehen und weniger Entscheidungen treffen, so dass er im Vergleich zum anderen sorgloser sein kann. Tatsächlich sollten beide Richter gleichermaßen vorsichtig oder konservativ sein, unabhängig von der Gesamtzahl der Entscheidungen, die sie treffen werden. Ich denke, diese Analogie überträgt sich mehr oder weniger auf die wirklichen Probleme, bei denen die Bonferroni-Korrektur angewendet wird, was ich nicht intuitiv finde.

AgCl
quelle
8
Keine wirkliche Antwort auf Ihre Frage, aber sind Sie auf False Discovery Rates (FDR) gestoßen? "Beyond Bonferroni" von Narum: springerlink.com/content/c5047h0084528056
apeescape

Antworten:

40

Sie haben etwas angegeben, das ein klassisches Gegenargument zu Bonferroni-Korrekturen ist. Sollte ich mein Alpha-Kriterium nicht an jeden Test anpassen, den ich jemals machen werde? Diese Art von Ad-absurdum-Implikation ist der Grund, warum manche Menschen überhaupt nicht an Korrekturen im Bonferroni-Stil glauben. Manchmal ist die Art der Daten, mit denen man in seiner Karriere umgeht, so, dass dies kein Problem darstellt. Für Richter, die eine oder nur sehr wenige Entscheidungen zu jedem neuen Beweisstück treffen, ist dies ein sehr zutreffendes Argument. Aber was ist mit dem Richter mit 20 Angeklagten und wer stützt sein Urteil auf einen einzigen großen Datensatz (z. B. Kriegsgerichte)?

Sie ignorieren die Tritte am Dosenteil des Arguments. Im Allgemeinen suchen Wissenschaftler nach etwas - einem p-Wert unter Alpha. Jeder Versuch, einen zu finden, ist ein weiterer Tritt in die Dose. Man wird schließlich einen finden, wenn man genug Schüsse darauf macht. Deshalb sollten sie dafür bestraft werden.

Wenn Sie diese beiden Argumente in Einklang bringen, müssen Sie erkennen, dass sie beide wahr sind. Die einfachste Lösung besteht darin, das Testen von Unterschieden innerhalb eines einzelnen Datensatzes als Trittbrett für das Problem der Dose zu betrachten, aber die Erweiterung des Korrekturbereichs nach außen wäre eine glatte Steigung.

Dies ist ein wirklich schwieriges Problem in einer Reihe von Bereichen, insbesondere bei FMRI, bei denen Tausende von Datenpunkten verglichen werden und einige zufällig als bedeutend eingestuft werden. Angesichts der Tatsache, dass das Gebiet historisch sehr explorativ war, muss man etwas tun, um die Tatsache zu korrigieren, dass Hunderte von Bereichen des Gehirns rein zufällig von Bedeutung sein werden. Daher wurden auf diesem Gebiet viele Verfahren zur Anpassung des Kriteriums entwickelt.

Andererseits kann man in einigen Bereichen höchstens 3 bis 5 Ebenen einer Variablen betrachten und immer nur jede Kombination testen, wenn eine signifikante ANOVA auftritt. Dies hat bekanntermaßen einige Probleme (Typ 1-Fehler), ist aber nicht besonders schlimm.

Das hängt von Ihrer Sichtweise ab. Der FMRI-Forscher erkennt einen echten Bedarf für eine Änderung der Kriterien. Die Person, die eine kleine ANOVA betrachtet, hat möglicherweise das Gefühl, dass der Test eindeutig etwas ergibt. Die richtige konservative Sicht auf die Mehrfachvergleiche ist, immer etwas dagegen zu unternehmen, aber nur auf der Grundlage eines einzelnen Datensatzes. Alle neuen Daten setzen das Kriterium zurück ... es sei denn, Sie sind Bayesianer ...

John
quelle
Danke, es war sehr hilfreich. Ich stimme ab, wenn ich genug Repräsentanten habe.
AgCl
Der FMRI-Forscher würde wahrscheinlich auch das FDR-Kriterium (False Discovery Rate) verwenden, da es über einen langen Zeitraum von Tests Alpha * 100% False Positives garantiert.
Brandon Sherman
@ John, können Sie bitte diese Frage beantworten ? Stats.stackexchange.com/questions/431011/… Ich würde mich freuen, wenn Sie mir bitte helfen können.
Sabbir Ahmed,
26

In zahlreichen Vergleichen haben angesehene Statistiker die unterschiedlichsten Positionen vertreten. Es ist ein subtiles Thema. Wenn jemand denkt, dass es einfach ist, würde ich mich fragen, wie viel er darüber nachgedacht hat.

Hier ist eine interessante Bayes'sche Perspektive zu Mehrfachtests von Andrew Gelman: Warum wir uns (normalerweise) keine Sorgen um Mehrfachvergleiche machen .

John D. Cook
quelle
2
Was ich an diesem Artikel interessant finde, ist, dass die Perspektive bayesisch ist, aber der hierarchische Modellierungsansatz, der angeboten wird, um Korrekturen für mehrere Vergleiche zu ersetzen, erfordert nicht, dass Sie bayesisch sind.
Conjugateprior
1
Ich habe mir nur diesen Artikel angesehen. Ich denke, vielleicht muss es mehr zitiert werden. Ich hasse Spülungseffekte, weil fortgeschrittene Mehrfachvergleichstechniken nicht gut bekannt oder einfach sind. Im Gegensatz dazu ist ein lmerer Ansatz denkbar einfach. Ich frage mich, ob es ernsthafte Probleme gibt, die in Betracht gezogen werden müssen.
Russellpierce
13

In Bezug auf den Kommentar zuvor sollte sich der fMRI-Forscher daran erinnern, dass es auf klinisch wichtige Ergebnisse ankommt, nicht auf die Dichteverschiebung eines einzelnen Pixels auf einem fMRI des Gehirns. Wenn dies nicht zu einer klinischen Besserung / Beeinträchtigung führt, spielt es keine Rolle. Dies ist eine Möglichkeit, die Besorgnis über Mehrfachvergleiche zu verringern.

Siehe auch:

  1. Bauer, P. (1991). Mehrfache Tests in klinischen Studien. Stat Med, 10 (6), 871 & ndash; 89; Diskussion 889-90.
  2. Proschan, MA & Waclawiw, MA (2000). Praktische Richtlinien zur Multiplizitätsanpassung in klinischen Studien. Control Clin Trials, 21 (6), 527-39.
  3. Rothman, KJ (1990). Für mehrere Vergleiche sind keine Anpassungen erforderlich. Epidemiology (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). Was ist los mit bonferroni Anpassungen. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.
pmgjones
quelle
Dies ist auch auf jeden Fall wert zitiert: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico
Ich bin sicher, sie hatten viel Spaß damit, einen toten Lachs nach seinen Gefühlen zu fragen !!!
nico
Dieser Beitrag enthält auch nützliche Verweise zu RCTs: j.mp/bAgr1B .
Chl
10

n(Xich)ich=1,,nich=1,,n XichN(θich,1)

H0ich:θich=0H1ich:θich0

nichτichH0ich|Xich|>τich

τich

  1. wähle für alle die gleiche Schwelle

  2. um für jeden einen anderen Schwellenwert zu wählen (am häufigsten einen datenbezogenen Schwellenwert, siehe unten).

Unterschiedliche Ziele: Diese Optionen können für unterschiedliche Ziele wie z

  • H0ichich
  • Steuern der Erwartung des Fehlalarmverhältnisses (oder der False Discovery Rate)

    Was auch immer Ihr Ziel am Ende ist, es ist eine gute Idee, einen datenbezogenen Schwellenwert zu verwenden.

Meine Antwort auf Ihre Frage: Ihre Intuition hängt mit der Hauptheuristik für die Auswahl eines datenbezogenen Schwellenwerts zusammen. Es ist das Folgende (am Ursprung von Holms Verfahren, das kraftvoller ist als Bonferoni):

p|Xich|H0ichn-pH0ich

Im Fall Ihrer Richter: Ich gehe davon aus (und ich denke, Sie sollten dasselbe tun), dass beide Richter die gleichen Budgets für falsche Anschuldigungen für ihr Leben haben. Der 60-jährige Richter ist vielleicht weniger konservativ, wenn er in der Vergangenheit niemanden beschuldigt hat! Aber wenn er schon viel vorgeworfen hat, wird er konservativer und vielleicht sogar mehr als der jüngste Richter.

Robin Girard
quelle
Ich denke, Sie haben einen Tippfehler in Ihren Hypothesen - sie scheinen beide gleich zu sein ...
Walkytalky
2

Ein illustrierender (und lustiger) Artikel; http://www.jsur.org/ar/jsur_ben102010.pdf ) über die Notwendigkeit einer mehrfachen Testkorrektur in einer praktischen Studie, die viele Variablen entwickelt, z. B. fmri. Dieses kurze Zitat sagt den größten Teil der Botschaft aus:

"[...] Wir haben eine fMRT-Untersuchung mit einem Atlantischen Lachs nach dem Tod als Subjekt durchgeführt. Dem Lachs wurde die gleiche soziale Perspektive zugewiesen, die später einer Gruppe menschlicher Subjekte übertragen wurde."

Dies ist meiner Erfahrung nach ein hervorragendes Argument, um Benutzer zu ermutigen, mehrere Testkorrekturen durchzuführen.

peuhp
quelle