Ich finde es schwierig zu verstehen, worum es bei mehreren Vergleichen wirklich geht . Mit einer einfachen Analogie wird gesagt, dass eine Person, die viele Entscheidungen treffen wird, viele Fehler machen wird. Daher wird sehr konservative Vorsichtsmaßnahme angewendet, wie die Bonferroni-Korrektur, um die Wahrscheinlichkeit, dass diese Person einen Fehler macht, so gering wie möglich zu halten.
Aber warum interessiert es uns, ob die Person bei allen Entscheidungen, die sie getroffen hat, einen Fehler gemacht hat, anstatt den Prozentsatz der falschen Entscheidungen?
Lassen Sie mich versuchen zu erklären, was mich mit einer anderen Analogie verwechselt. Angenommen, es gibt zwei Richter, einer ist 60 Jahre alt und der andere ist 20 Jahre alt. Dann sagt die Bonferroni-Korrektur dem 20-Jährigen, er solle bei der Entscheidung für die Hinrichtung so konservativ wie möglich sein, weil er noch viele Jahre als Richter tätig sein und noch viele weitere Entscheidungen treffen wird. Deshalb muss er vorsichtig sein. Aber der eine mit 60 wird möglicherweise bald in Rente gehen und weniger Entscheidungen treffen, so dass er im Vergleich zum anderen sorgloser sein kann. Tatsächlich sollten beide Richter gleichermaßen vorsichtig oder konservativ sein, unabhängig von der Gesamtzahl der Entscheidungen, die sie treffen werden. Ich denke, diese Analogie überträgt sich mehr oder weniger auf die wirklichen Probleme, bei denen die Bonferroni-Korrektur angewendet wird, was ich nicht intuitiv finde.
Antworten:
Sie haben etwas angegeben, das ein klassisches Gegenargument zu Bonferroni-Korrekturen ist. Sollte ich mein Alpha-Kriterium nicht an jeden Test anpassen, den ich jemals machen werde? Diese Art von Ad-absurdum-Implikation ist der Grund, warum manche Menschen überhaupt nicht an Korrekturen im Bonferroni-Stil glauben. Manchmal ist die Art der Daten, mit denen man in seiner Karriere umgeht, so, dass dies kein Problem darstellt. Für Richter, die eine oder nur sehr wenige Entscheidungen zu jedem neuen Beweisstück treffen, ist dies ein sehr zutreffendes Argument. Aber was ist mit dem Richter mit 20 Angeklagten und wer stützt sein Urteil auf einen einzigen großen Datensatz (z. B. Kriegsgerichte)?
Sie ignorieren die Tritte am Dosenteil des Arguments. Im Allgemeinen suchen Wissenschaftler nach etwas - einem p-Wert unter Alpha. Jeder Versuch, einen zu finden, ist ein weiterer Tritt in die Dose. Man wird schließlich einen finden, wenn man genug Schüsse darauf macht. Deshalb sollten sie dafür bestraft werden.
Wenn Sie diese beiden Argumente in Einklang bringen, müssen Sie erkennen, dass sie beide wahr sind. Die einfachste Lösung besteht darin, das Testen von Unterschieden innerhalb eines einzelnen Datensatzes als Trittbrett für das Problem der Dose zu betrachten, aber die Erweiterung des Korrekturbereichs nach außen wäre eine glatte Steigung.
Dies ist ein wirklich schwieriges Problem in einer Reihe von Bereichen, insbesondere bei FMRI, bei denen Tausende von Datenpunkten verglichen werden und einige zufällig als bedeutend eingestuft werden. Angesichts der Tatsache, dass das Gebiet historisch sehr explorativ war, muss man etwas tun, um die Tatsache zu korrigieren, dass Hunderte von Bereichen des Gehirns rein zufällig von Bedeutung sein werden. Daher wurden auf diesem Gebiet viele Verfahren zur Anpassung des Kriteriums entwickelt.
Andererseits kann man in einigen Bereichen höchstens 3 bis 5 Ebenen einer Variablen betrachten und immer nur jede Kombination testen, wenn eine signifikante ANOVA auftritt. Dies hat bekanntermaßen einige Probleme (Typ 1-Fehler), ist aber nicht besonders schlimm.
Das hängt von Ihrer Sichtweise ab. Der FMRI-Forscher erkennt einen echten Bedarf für eine Änderung der Kriterien. Die Person, die eine kleine ANOVA betrachtet, hat möglicherweise das Gefühl, dass der Test eindeutig etwas ergibt. Die richtige konservative Sicht auf die Mehrfachvergleiche ist, immer etwas dagegen zu unternehmen, aber nur auf der Grundlage eines einzelnen Datensatzes. Alle neuen Daten setzen das Kriterium zurück ... es sei denn, Sie sind Bayesianer ...
quelle
In zahlreichen Vergleichen haben angesehene Statistiker die unterschiedlichsten Positionen vertreten. Es ist ein subtiles Thema. Wenn jemand denkt, dass es einfach ist, würde ich mich fragen, wie viel er darüber nachgedacht hat.
Hier ist eine interessante Bayes'sche Perspektive zu Mehrfachtests von Andrew Gelman: Warum wir uns (normalerweise) keine Sorgen um Mehrfachvergleiche machen .
quelle
In Bezug auf den Kommentar zuvor sollte sich der fMRI-Forscher daran erinnern, dass es auf klinisch wichtige Ergebnisse ankommt, nicht auf die Dichteverschiebung eines einzelnen Pixels auf einem fMRI des Gehirns. Wenn dies nicht zu einer klinischen Besserung / Beeinträchtigung führt, spielt es keine Rolle. Dies ist eine Möglichkeit, die Besorgnis über Mehrfachvergleiche zu verringern.
Siehe auch:
quelle
wähle für alle die gleiche Schwelle
um für jeden einen anderen Schwellenwert zu wählen (am häufigsten einen datenbezogenen Schwellenwert, siehe unten).
Unterschiedliche Ziele: Diese Optionen können für unterschiedliche Ziele wie z
Steuern der Erwartung des Fehlalarmverhältnisses (oder der False Discovery Rate)
Was auch immer Ihr Ziel am Ende ist, es ist eine gute Idee, einen datenbezogenen Schwellenwert zu verwenden.
Meine Antwort auf Ihre Frage: Ihre Intuition hängt mit der Hauptheuristik für die Auswahl eines datenbezogenen Schwellenwerts zusammen. Es ist das Folgende (am Ursprung von Holms Verfahren, das kraftvoller ist als Bonferoni):
Im Fall Ihrer Richter: Ich gehe davon aus (und ich denke, Sie sollten dasselbe tun), dass beide Richter die gleichen Budgets für falsche Anschuldigungen für ihr Leben haben. Der 60-jährige Richter ist vielleicht weniger konservativ, wenn er in der Vergangenheit niemanden beschuldigt hat! Aber wenn er schon viel vorgeworfen hat, wird er konservativer und vielleicht sogar mehr als der jüngste Richter.
quelle
Ein illustrierender (und lustiger) Artikel; http://www.jsur.org/ar/jsur_ben102010.pdf ) über die Notwendigkeit einer mehrfachen Testkorrektur in einer praktischen Studie, die viele Variablen entwickelt, z. B. fmri. Dieses kurze Zitat sagt den größten Teil der Botschaft aus:
Dies ist meiner Erfahrung nach ein hervorragendes Argument, um Benutzer zu ermutigen, mehrere Testkorrekturen durchzuführen.
quelle