Was ist los mit Bonferroni Anpassungen?

23

Ich las das folgende Papier: Perneger (1998) Was ist mit Bonferroni Anpassungen falsch ist .

Der Autor fasste zusammen, dass die Bonferroni-Anpassung allenfalls in der biomedizinischen Forschung nur in begrenztem Umfang Anwendung findet und nicht zur Bewertung von Belegen für bestimmte Hypothesen herangezogen werden sollte:

Zusammenfassende Punkte:

  • Das Anpassen der statistischen Signifikanz für die Anzahl der Tests, die mit Studiendaten durchgeführt wurden (Bonferroni-Methode), führt zu mehr Problemen als es löst
  • Die Bonferroni-Methode befasst sich mit der allgemeinen Nullhypothese (dass alle Nullhypothesen gleichzeitig zutreffen), die für Forscher selten von Interesse oder Anwendung ist
  • Die Hauptschwäche besteht darin, dass die Interpretation eines Befundes von der Anzahl der anderen durchgeführten Tests abhängt
  • Die Wahrscheinlichkeit von Fehlern des Typs II wird ebenfalls erhöht, so dass wirklich wichtige Unterschiede als nicht signifikant eingestuft werden
  • Einfach zu beschreiben, welche Signifikanztests durchgeführt wurden und warum, ist im Allgemeinen die beste Methode, um mehrere Vergleiche zu verarbeiten

Ich habe den folgenden Datensatz und möchte mehrere Testkorrekturen durchführen, kann mich jedoch in diesem Fall nicht für die beste Methode entscheiden.

Bildbeschreibung hier eingeben

Ich möchte wissen, ob diese Art der Korrektur für alle Datensätze, die Listen von Mitteln enthalten, unbedingt erforderlich ist und welche Methode für die Korrektur in diesem Fall am besten geeignet ist.

goro
quelle
Was genau ist "Mittelwert A", "Mittelwert B" ...?
3
Wenn Sie mehrere Vergleiche nicht korrigieren, besteht das Risiko, dass die Ergebnisse nicht reproduzierbar sind. Viele Bereiche, einschließlich Medizin und Psychologie, haben kürzlich entdeckt, dass genau das passiert ist: Vieles, was sie aufgrund unkorrigierter p-Werte "wissen", ist einfach nicht so. Ohne die Bedeutung, zynisch zu wirken, scheint die Wahl klar zu sein: Der Forscher, der ein p-Wert-Kriterium erfüllen muss, um zu veröffentlichen, wird nicht korrigieren; der Skeptiker, der Wissen will, wird.
Whuber
@whuber aber kann es immer noch als reproduzierbar angesehen werden, wenn so viele verschiedene Methoden zur Korrektur von p-Werten zur Verfügung stehen? In seiner Antwort gibt Martino sogar Richtlinien für die Wahl zwischen weniger konservativen oder leistungsfähigeren Methoden.
Nakx
@Nakx Die Reproduzierbarkeit wird nur lose mit dem statistischen Verfahren verbunden: Bezieht sich auf , ob oder nicht vergleichbare Ergebnisse werden erzielt, wenn die Forschung unabhängig von anderen (und vermutlich in einer solchen Versuche erfolgt replizieren eine einzige klare Hypothese im Voraus wird artikuliert und ein dieser Hypothese entsprechendes statistisches Verfahren wird angewendet). Wenn das ursprüngliche Verfahren keinen korrekten p-Wert liefert, werden bei mehrmaliger Anwendung für viele unabhängige Studien im Durchschnitt irreproduzierbarere Bestimmungen durchgeführt, als die Benutzer beabsichtigen oder erwarten.
whuber

Antworten:

23

Was an der Bonferroni-Korrektur neben dem von anderen erwähnten Konservatismus falsch ist, ist, was an allen Multiplizitätskorrekturen falsch ist. Sie ergeben sich nicht aus statistischen Grundprinzipien und sind willkürlich; Es gibt keine eindeutige Lösung für das Multiplizitätsproblem in der frequentistischen Welt. Zweitens basieren Multiplizitätsanpassungen auf der zugrunde liegenden Philosophie, dass die Richtigkeit einer Aussage davon abhängt, welche anderen Hypothesen unterhalten werden. Dies entspricht einem Bayes'schen Aufbau, bei dem die vorherige Verteilung für einen interessierenden Parameter konservativer wird, wenn andere Parameter berücksichtigt werden. Dies scheint nicht kohärent zu sein. Man könnte sagen, dass dieser Ansatz von Forschern stammt, die durch eine Geschichte falsch positiver Experimente "verbrannt" wurden und nun ihre Missetaten wiedergutmachen wollen.

Berücksichtigen Sie zum Erweitern die folgende Situation. Ein Onkologieforscher hat Karriere gemacht, um die Wirksamkeit von Chemotherapien einer bestimmten Klasse zu untersuchen. Alle vorherigen 20 ihrer randomisierten Studien haben zu einer statistisch nicht signifikanten Wirksamkeit geführt. Jetzt testet sie eine neue Chemotherapie in der gleichen Klasse. Der Überlebensvorteil ist mit P = 0,04 signifikantP=0,04. Ein Kollege weist darauf hin, dass ein zweiter Endpunkt untersucht wurde (Tumorschrumpfung) und dass eine Multiplizitätsanpassung auf das Überlebensergebnis angewendet werden muss, um einen unbedeutenden Überlebensvorteil zu erzielen. Wie kommt es, dass der Kollege den zweiten Endpunkt hervorhob, sich aber nicht weniger um die Anpassung an die 20 zuvor fehlgeschlagenen Versuche kümmerte, ein wirksames Medikament zu finden? Und wie würden Sie Vorkenntnisse über die 20 vorhergehenden Studien berücksichtigen, wenn Sie nicht Bayesianer wären? Was wäre, wenn es keinen zweiten Endpunkt gegeben hätte? Würde der Kollege glauben, dass ein Überlebensvorteil nachgewiesen wurde, ohne alle Vorkenntnisse zu berücksichtigen?

Frank Harrell
quelle
2
Nicht klar auf den Verweis auf "wiederholbar". Wenn es einen einzelnen Test gibt, für den keine Multiplizitätsanpassung erforderlich ist, ist die Wahrscheinlichkeit, dass ein Ergebnis mit wiederholt wird, nicht hoch. P=0.04
Frank Harrell
2
Um @MJA zu beantworten, gibt es meines Erachtens zwei bevorzugte Ansätze: (1) Bayesianisch sein oder (2) die Hypothesen priorisieren und die Ergebnisse im Kontext in der Prioritätsreihenfolge angeben.
Frank Harrell
3
Daran ist nichts Grundsätzliches, und es ist auch in keiner Weise genau. Bonferronis Ungleichung ist nur eine Obergrenze für die Fehlerwahrscheinlichkeit. Warum sollte man gleichermaßen für 5 Parameter ausgeben ? Warum nicht einen ellipsoiden Bereich anstelle eines rechteckigen Bereichs für den Akzeptanzbereich erstellen? Warum nicht Scheffe oder Tukey's Methode anwenden? Warum nicht einen einfachen zusammengesetzten ANOVA-Test verwenden? Sie erreichen nicht das gewünschte ααα durch eine Verwendung in Gleichheit.
Frank Harrell
2
Sie bezweifeln zwei Fehlerraten. Unter der Null behält Bonferroni GENAU die erwartete Anzahl von Fehlern pro Familie bei. Es gibt einen UPPER BOUND über die Wahrscheinlichkeit von "mindestens einem" Fehler pro Familie (abhängig von der Korrelation). Gleichermaßen Alpha für die 5 Tests auszugeben, ist völlig logisch, da es keinen besonderen Grund gibt, die Tests auf andere Weise zu priorisieren. In einem anderen Kontext gibt es grundsätzlich Gründe, etwas anderes zu tun. Sie scheinen zu implizieren, dass es "nicht prinzipiell" ist, eine mathematisch fundierte Methode zu verwenden, nur weil alternative Methoden in Anbetracht anderer Kontexte, Ziele und Annahmen existieren.
Bonferroni
2
@FrankHarrell Ihre anderen Fragen dienen nur dazu, meinen Standpunkt zu veranschaulichen. Es gibt oftmals eine Vielzahl von Teststatistiken, Testverfahren usw., auch wenn keine Vielzahl vorhanden ist. Das macht die Methodik nicht "willkürlich" in dem Sinne, wie Sie es vermuten. Wenn man sich für einen Omnibus-Test interessiert, dann unbedingt einen durchführen. Wenn man sich nur für die univariaten Tests interessiert, dann führt man auf jeden Fall die univariaten Tests durch. Schlagen Sie ernsthaft vor, dass es "willkürlich" ist, den Test auszuwählen, der sich mit der Frage befasst, an der Sie interessiert sind, und nicht mit einer anderen Frage?
Bonferroni
12

Zusammenfassend fasst er zusammen, dass die Bonferroni-Anpassung allenfalls in der biomedizinischen Forschung nur in begrenztem Umfang Anwendung findet und nicht zur Bewertung von Belegen für bestimmte Hypothesen verwendet werden sollte.

Die Bonferroni-Korrektur ist eine der einfachsten und konservativsten Mehrfachvergleichsverfahren. Es ist auch eines der ältesten und wurde im Laufe der Zeit stark verbessert. Man kann mit Recht sagen, dass die Bonferroni-Einstellungen in fast allen Situationen nur begrenzt anwendbar sind. Es gibt mit ziemlicher Sicherheit einen besseren Ansatz. Das heißt, Sie müssen mehrere Vergleiche korrigieren, können jedoch eine weniger konservative und leistungsfähigere Methode auswählen.

Weniger konservativ

Mehrere Vergleichsmethoden schützen vor mindestens einem falschen Positiv in einer Testfamilie. Wenn Sie einen Test auf der Stufe haben Sie eine Chance von 5%, ein falsches Positiv zu erhalten. Mit anderen Worten, Sie lehnen Ihre Nullhypothese fälschlicherweise ab. Wenn Sie 10 Tests auf der Stufe α = 0,05 durchführen, erhöht sich diese auf 1 - ( 1 - 0,05 ) 10 = ~ 40% Wahrscheinlichkeit, ein falsches Positiv zu erhaltenαα=0.051(10.05)10

Mit der Bonferroni-Methode verwenden Sie ein am untersten Ende der Skala (dh α b = α / n ), um Ihre Familie von n Tests auf α- Ebene zu schützen . Mit anderen Worten, es ist das konservativste. Nun können Sie α erhöhenαbαb=α/nnα über die von Bonferroni festgelegte Untergrenze(dh Ihren Test weniger konservativ gestalten) und dennoch Ihre Testfamilie auf α- Niveauschützen. Es gibt viele Möglichkeiten, dies zu tun, zum Beispiel die Holm-Bonferroni-Methode oder besser False Discovery Rateαbα

Stärker

Ein guter Punkt, der in dem genannten Aufsatz angesprochen wird, ist, dass die Wahrscheinlichkeit von Fehlern des Typs II ebenfalls erhöht wird, so dass wirklich wichtige Unterschiede als nicht signifikant eingestuft werden.

Dies ist sehr wichtig. Ein leistungsfähiger Test ist ein Test, der signifikante Ergebnisse liefert, falls vorhanden. Mit der Bonferroni-Korrektur erhalten Sie einen weniger leistungsfähigen Test. Da Bonferroni konservativ ist, dürfte die Leistung erheblich reduziert werden. Auch hier erhöht eine der alternativen Methoden, z. B. False Discovery Rate, die Leistung des Tests. Mit anderen Worten, Sie schützen sich nicht nur vor Fehlalarmen, sondern verbessern auch Ihre Fähigkeit, wirklich signifikante Ergebnisse zu erzielen.

Also ja, Sie sollten eine Korrekturmethode anwenden, wenn Sie mehrere Vergleiche haben. Und ja, Bonferroni sollte wahrscheinlich zugunsten einer weniger konservativen und leistungsfähigeren Methode vermieden werden

martino
quelle
Es gibt mehrere Alternativen - Holm Bonferroni zum Beispiel ist einfach und leicht zu verstehen. Warum nicht mal ausprobieren? Angenommen, Ihre Anwendung ist die Gen- oder Proteinexpression, bei der Sie möglicherweise Tausende von Variablen in einem Experiment testen, dann wird in der Regel Ihr FDR verwendet.
Martino
Ihre Methode zur Berechnung der 40-prozentigen Wahrscheinlichkeit eines Fehlalarms in zehn Tests basiert auf unabhängigen Ereignissen. Bei realen Daten ist dies jedoch höchstwahrscheinlich nicht der Fall. Ich denke, das ist zumindest eine Bemerkung wert.
Silverfish
Ich mache mir auch Sorgen, dass diese Antwort Methoden zur Beibehaltung der familienbezogenen Fehlerrate mit denen für die Rate falscher Entdeckungen in Einklang zu bringen scheint. Es ist keine schlechte Idee, diese beiden Dinge zu diskutieren, aber da sie unterschiedliche Aufgaben erfüllen, denke ich nicht, dass sie als gleichwertig dargestellt werden sollten
Silverfish
Aber wenn ich das richtig verstehe, garantieren die FDR (Falschentdeckungsraten) keine Typ-I-Fehlerkontrolle auf einem vorgegebenen Niveau? (Siehe auch meine Antwort auf diese Frage)
Aber ist es nicht transparenter und sinnvoller, alle rohen p-Werte in einem Artikel anzugeben, damit die Leser selbst beurteilen können, ob sie gültig sind oder welche der unzähligen Anpassungsmethoden sie verwenden möchten?
Nakx
5

Thomas Perneger ist kein Statistiker und seine Arbeit ist voller Fehler. Ich würde es also nicht zu ernst nehmen. Es ist tatsächlich stark von anderen kritisiert worden. Zum Beispiel sagte Aickin, dass Pernegers Artikel "fast ausschließlich aus Fehlern besteht": Aickin, "Andere Methode zur Anpassung von Mehrfachtests existiert", BMJ. 1999 Jan 9; 318 (7176): 127.

Auch ohne Multiplizitätsanpassung ist ohnehin keiner der p-Werte in der ursprünglichen Frage <.05. Daher spielt es wahrscheinlich keine Rolle, welche Einstellung (falls vorhanden) verwendet wird.

Bonferroni
quelle
4
Danke für den Link! Ich habe eine ausführlichere Referenz hinzugefügt. Dies ist immer noch eher ein Kommentar als eine Antwort und ich bin sicher, dass Sie etwas Interessantes hinzufügen müssen, oder zumindest eine kurze Zusammenfassung dessen, was Aicken sagt. Unabhängig davon: Zu sagen, dass Perneger keine Expertise in Statistik hat, scheint nicht wahr (nach vernünftigen Maßstäben), liebenswürdig oder nützlich - würden Sie in Betracht ziehen, die Aussage zu entfernen?
Scortchi
@Scortchi Ich habe geändert "hat keine Kenntnisse in Statistik", um "ist kein Statistiker." Im Übrigen bin ich anderer Meinung, dass es nicht sinnvoll ist, Expertenmeinungen von Nicht-Expertenmeinungen zu unterscheiden.
Bonferroni
2
Soweit ich das beurteilen kann, hat Perneger keinen Abschluss in Statistik und noch nie einen Artikel in einem Statistikjournal veröffentlicht. Das in der Frage zitierte Papier ist ein Meinungsartikel im BMJ, der als völlig falsch bezeichnet wurde. Also, was ist Pernegers angebliche Expertise, die "jenseits jeder vernünftigen Norm" unbestreitbar ist? "Liebenswürdig" zu sein, sollte der Wahrheit nicht im Wege stehen.
Bonferroni
3
Soweit ich sagen kann, ist er Professor an einer Universitätsklinik mit einem Master in Biostatistik und einem Doktortitel in Epidemiologie, der Vorlesungen in medizinischer Statistik hält und Analysen klinischer Studien und Beobachtungsstudien in medizinischen Fachzeitschriften veröffentlicht. Wenn Sie daraus schließen, dass "keine statistische Expertise" vorliegt, ist Ihr Standard meiner Meinung nach höher, als Sie vernünftigerweise von Ihren Lesern erwarten würden. (Das hätte ich eher sagen sollen, als dass der Standard unvernünftig war.) Wie auch immer, danke, dass du ihn bearbeitet hast!
Scortchi
5

Vielleicht ist es gut, die Gründe für mehrere Testkorrekturen wie die von Bonferroni zu erklären. Wenn das klar ist, können Sie selbst beurteilen, ob Sie sie anwenden sollten oder nicht.

μH0:μ=0

H1:μ0H0:μ=0α

Um diese "geringe Wahrscheinlichkeit" zu finden, ziehen wir eine Zufallsstichprobe aus einer Verteilung, deren Zeitpunkt bekannt ist H0H0 te sei wahr, können wir die Wahrscheinlichkeit dieses Ergebnisses berechnen (genauer etwas, das mindestens so extrem ist wie dieses Ergebnis).

H0H0H1

Falsche Beweise sind eine schlechte Sache in der Wissenschaft, weil wir glauben, echte Kenntnisse über die Welt gewonnen zu haben, aber in der Tat haben wir möglicherweise Pech mit der Stichprobe gehabt. Diese Art von Fehlern sollte folglich kontrolliert werden. Daher sollte man die Wahrscheinlichkeit dieser Art von Beweisen nach oben begrenzen oder den Fehler vom Typ I kontrollieren. Dies erfolgt durch vorherige Festlegung eines akzeptablen Signifikanzniveaus.

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

Eine Möglichkeit besteht darin, diesen Hypothesentest aufzuteilen und zu testenH0(1):μ1=0H0(1):μ10 and to test H1(2):μ2=0 versus H1(2):μ20 both at the significance level α=0.05.

To do both tests we draw one sample , so we use one and the same sample to do both of these tests. I may have bad luck with that one sample and erroneously reject H0(1) but with that same sample I may also have bad luck with the sample for the second test and erroneously reject H0(1)

Therefore, the chance that at least one of the two is an erroneous rejection is 1 minus the probability that both are not rejected, i.e. 1(10.05)2=0.0975, where it was assumed that both tests are independent. In other words, the type I error has ''inflated'' to 0.0975 which is almost double α.

The important fact here is that the two tests are based on one and the sampe sample !

Note that we have assumed independence. If you can not assume independence then you can show, using the Bonferroni inequality$ that the type I error can inflate up to 0.1.

Note that Bonferroni is conservative and that Holm's stepwise procedure holds under the same assumptions as for Bonferroni, but Holm's procedure has more power.

When the variables are discrete it's better to use test statistics based on the minimum p-value and if you are ready to abandon type I error control when doing a massive number of tests then False Discovery Rate procedures may be more powerful.

EDIT :

If e.g. (see the example in the answer by @Frank Harrell)

H0(1):μ1=0 versus H1(1):μ10 is the a test for the effect of a chemotherapy and

H0(2):μ1=0 versus H1(2):μ20 is the test for the effect on tumor shrinkage,

then, in order to control the type I error at 5% for the hypothesis H0(12):μ1=0&μ2=0 versus H1(12):μ10|μ20 (i.e. the test that at least one of them has an effect) can be carried out by testing (on the same sample)

H0(1) versus H1(1) at the 2.5% level and also H0(2) versus H1(2) at the 2.5% level.


quelle
2
I think this question benefits from an answer like this but I suggest tightening the wording of "So if we fix our significance level at 5% then we are saying that we are ready to accept to find false evidence (because of bad luck with the sample) with a chance of 5%"... That is only the probability of error if the null is actually true, and that's worth saying. (Is "false evidence" a common term? I'm more used to seeing "false positive".)
Silverfish
@Silverfish; I re-phresed it a bit, do you think it is better like this ?
1
I think that's better - "statistically proven" would probably benefit from rephrasing too, I know this is how many people interpret p<0.05 or whatever but of course it isn't really a proof!
Silverfish
@Silverfish: I fully agree that is not a ''proof'' but I used the term for didactial reasons, because I started by the analogy to proof by contradiction. I will add such a clarification at the begining
Your Edit is confusing. "The effect of chemotherapy" in Frank's example is measured via two measures: survival rate and tumor shrinkage. Both can be influenced by chemo. The hypothesis is obviously that chemo works. But "works" can be quantified in two different ways. That's the vagueness aspect I've been talking about in your new thread.
amoeba says Reinstate Monica
4

A nice discussion of Bonferroni correction and effect size http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Also, Dunn-Sidak correction and Fisher's combined probabilities approach are worth considering as alternatives. Regardless of the approach, it is worth reporting both adjusted and raw p-values plus effect size, so that the reader can have the freedom of interpreting them.

katya
quelle
The advice to present both raw and adjusted p-values has always seemed sensible to me but is it generally considered the norm, or even acceptable?
Silverfish
3

For one, it's extremely conservative. The Holm-Bonferroni method accomplishes what the Bonferonni method accomplishes (controlling the Family Wise Error Rate) while also being uniformly more powerful.

TrynnaDoStat
quelle
Is that mean that I need to use this method to correct my results or I should accept the results depending on my hypothesis.
goro
I dont know what you mean by "I should accept the results depending on my hypothesis" but yes you should apply some sort of multiple testing correction because otherwise you are highly inflating type 1 error.
TrynnaDoStat
What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?
goro
1
Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.
TrynnaDoStat
3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.

John Mark
quelle
3
These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).
Matt Krause
@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)