Sidak oder Bonferroni?

12

Ich verwende ein verallgemeinertes lineares Modell in SPSS, um die Unterschiede in der durchschnittlichen Anzahl von Raupen (nicht normal, unter Verwendung der Tweedie-Verteilung) an 16 verschiedenen Pflanzenarten zu untersuchen.

Ich möchte mehrere Vergleiche durchführen, bin mir jedoch nicht sicher, ob ich einen Sidak- oder Bonferroni-Korrekturtest verwenden soll. Was ist der Unterschied zwischen den beiden Tests? Ist einer besser als der andere?

Emily
quelle
1
Ich hasse die Tatsache, dass solche Korrekturen beim Testen von Standardhypothesen häufig erforderlich sind, und ich bevorzuge Bayes'sche Techniken. Trotzdem hasse ich die Sidak-Korrektur weniger, weil sie weniger ad-hoc zu sein scheint (wenn Sie bereit sind, die Annahme der Unabhängigkeit zu akzeptieren). Dies ist jedoch meist nur eine persönliche Präferenz, weshalb ich einen Kommentar anstelle einer Antwort gemacht habe.
Michael McGowan
1
@MichaelMcGowan: Nur neugierig, aber was halten Sie von einer Bonferroni-Korrektur für " ad hoc "?
Kardinal
@ cardinal Sorry, das war wahrscheinlich nicht die beste Wortwahl. Die Sidak-Korrektur erfordert strengere Annahmen (ich möchte diese Kosten nicht trivialisieren) und schafft eine Grenze mit mehr qualitativer Bedeutung. Ich kann nicht wirklich qualitativ erklären, was die Schranke in der Bonferroni-Korrektur darstellt, abgesehen von einer Art Worst-Case-Schranke nach Booles Ungleichung.
Michael McGowan
@MichaelMcGowan: Ah, ok. Aha. Ich nehme an, es gibt ein paar qualitative Dinge, die man über Bonferroni sagen könnte: (a) Es bietet einen garantierten Schutz gegen die familienbezogene Fehlerrate, unabhängig von der Abhängigkeit zwischen den einzelnen Teststatistiken unter der Null und (b) Es ist die genau richtige Korrektur zu machen, wenn die Abstoßungsbereiche der einzelnen Hypothesentests paarweise disjunkt sind.
Kardinal
1
Zwei Tests sind nicht unabhängig, wenn die Wahrscheinlichkeit eines Fehlers vom Typ I für einen Test mit der für den anderen Test korreliert. Angenommen, Sie führen ein Experiment mit einer Kontrollbedingung und zwei Testbedingungen durch. Die zwei Tests, die jede Testbedingung mit der Kontrollbedingung vergleichen, sind nicht unabhängig. Sie können dies sehen, indem Sie überlegen, was passiert, wenn Sie zufällig einen Extremwert für die Kontrollbedingung erhalten. Dies würde die Wahrscheinlichkeit erhöhen, dass beide Tests statistisch signifikant sind.

Antworten:

20

Wenn Sie unabhängige statistische Tests mit α als Signifikanzniveau durchführen und die Null für jeden Test einzeln ermittelt wird, die langfristige Fehlerrate des Typs I jedoch über den Satz von 3 Tests hinweg höher ist. Wenn Sie der Meinung sind, dass es sinnvoll ist, diese drei Tests zu gruppieren / zusammenzufassen, sollten Sie die Typ-I-Fehlerrate für den gesamten Satz auf α haltenkα Fall ermittelt, ist es einfach eine Ziehung aus einer Zufallsvariablen, ob Sie "Signifikanz" finden oder nicht. Insbesondere wird es aus einer Binomialverteilung mit und n = k genommen . Wenn Sie beispielsweise vorhaben , 3 Tests mit α = 0,05 durchzuführen , und (ohne Ihr Wissen) in jedem Fall kein Unterschied besteht, besteht eine Wahrscheinlichkeit von 5%, in jedem Test ein signifikantes Ergebnis zu erzielen. Auf diese Weise wird die Fehlerrate vom Typ I auf α gehaltenp=αn=kα=.05αα und nicht nur für sich. Wie solltest du vorgehen? Es gibt zwei , die Mitte nähert sich von der ursprünglichen auf Verschiebung (dh α o ) auf einen neuen Wert (dh α n e w ):ααoαnew

Bonferroni: Passen Sie das zur Beurteilung der "Signifikanz" verwendete so an, dassα

αnew=αok

Dunn-Sidak: Stellen Sie mit einα

αnew=1(1αo)1/k

(Beachten Sie, dass der Dunn-Sidak davon ausgeht, dass alle Tests innerhalb des Satzes unabhängig voneinander sind und eine familienweise Typ-I-Fehlerinflation ergeben könnten, wenn diese Annahme nicht zutrifft.)

Es ist wichtig zu beachten , dass bei Prüfungen durchführt, gibt es zwei Arten von Fehlern , die Sie vermeiden wollen, Typ I (dh sagen , es ist ein Unterschied , wenn es nicht ein) und Typ II (dh sagen , es nicht ist ein Unterschied, wenn es tatsächlich ist). Wenn Leute über dieses Thema diskutieren, diskutieren sie in der Regel nur Fehler des Typs I und scheinen sich dessen nur bewusst zu sein bzw. sich damit zu befassen. Außerdem wird häufig übersehen, dass die berechnete Fehlerrate nur dann gültig ist , wenn alle Nullen wahr sind. Es liegt auf der Hand, dass Sie keinen Fehler vom Typ I machen können, wenn die Nullhypothese falsch ist, aber es ist wichtig, diese Tatsache bei der Erörterung dieses Problems explizit zu berücksichtigen.

Ich erwähne dies, weil es Implikationen dieser Tatsachen gibt, die anscheinend oft unberücksichtigt bleiben. Erstens, wenn k>1 bietet der Dunn-Sidak-Ansatz eine höhere Leistung (obwohl der Unterschied bei kleinem sehr klein sein kann ) und sollte daher immer bevorzugt werden (falls zutreffend). Zweitens sollte ein "Step-Down" -Ansatz verwendet werden. Das heißt, testen Sie zuerst den größten Effekt. Wenn Sie davon überzeugt sind, dass die Null in diesem Fall nicht erreicht wird, beträgt die maximal mögliche Anzahl von Fehlern des Typs I k - 1 , daher sollte der nächste Test entsprechend angepasst werden und so weiter. (Dies macht Menschen oft unangenehm und sieht aus wie Angeln, ist es aber nichtkk1Angeln, da die Tests unabhängig sind und Sie beabsichtigten, sie durchzuführen, bevor Sie jemals die Daten gesehen haben. Dies ist nur eine Möglichkeit, optimal einzustellen .) α

Das oben Gesagte gilt unabhängig davon, wie Sie Typ I in Bezug auf Typ II-Fehler bewerten. Von vornherein gibt es jedoch keinen Grund zu der Annahme, dass Fehler des Typs I schlimmer sind als Fehler des Typs II (obwohl dies anscheinend von allen angenommen wird). Stattdessen ist dies eine Entscheidung, die vom Forscher getroffen werden muss und spezifisch für diese Situation sein muss. Persönlich, wenn ich theoretisch vorgeschlagene a priori orthogonale Kontraste ablaufe , passe ich normalerweise .α

(Und dies wiederum zu erklären, weil es wichtig ist, alle oben gehen davon aus, dass die Tests unabhängig sind. Wenn die Kontraste sind nicht unabhängig, wie wenn mehrere Behandlungen des jeweils im Vergleich zur gleichen Kontrolle sind, ein anderer Ansatz als Einstellung, wie Dunnett-Test sollte verwendet werden.) α

gung - Wiedereinsetzung von Monica
quelle
+1. Ist das, was Sie als "Step-Down" -Ansatz für Bonferroni bezeichnen, genau gleichbedeutend mit der sogenannten Holm-Bonferroni-Methode? Wenn ja, hat dieselbe Logik, die für Dunn-Sidak gilt, einen Namen?
Amöbe sagt Reinstate Monica
1
@amoeba, ja, es wird manchmal als "Holm-Methode" bezeichnet, daher auch Holm-Bonferroni oder Holm-Sidak.
gung - Wiedereinsetzung von Monica
Vielen Dank. Eine andere Frage, die ich habe, betrifft Ihre Aussage, dass Sie, wenn Sie theoretisch vorgeschlagene orthogonale Kontraste von vornherein ausführen, normalerweise nicht anpassen . Wie wichtig ist hier "orthogonal"? Wenn Sie beispielsweise 6 Subjektgruppen haben und die Gruppen 2, 3, 4, 5 und 6 mit Gruppe 1 vergleichen (wobei Gruppe 1 beispielsweise eine Kontrollgruppe sein kann), handelt es sich um nicht orthogonale Kontraste. Würden Sie α in diesem Fall anders einstellen als wenn Ihre Kontraste tatsächlich orthogonal sind, wie 1-2, 3-4, 5-6? Wenn ja warum? αα
Amöbe sagt Reinstate Monica
@amoeba, 3 a-priori, orthogonale Kontraste in einer Studie sind nicht anders als 1 a-priori-Kontrast in jeder von 3 verschiedenen Studien. Da niemand argumentiert, dass Sie für letztere familiäre Korrekturen benötigen, gibt es keinen schlüssigen Grund, sie für erstere zu fordern. In Ihrem anderen Beispiel sieht jeder Ihrer 5 Kontraste gut aus, wenn die Kontrollgruppe nur zufällig nach unten springt. Dies ist jedoch unwahrscheinlich, wenn Sie 5 unabhängige Studien durchgeführt haben. Sie sollten wirklich irgendeine Form der Anpassung verwenden, oder Sie könnten den Dunnett-Test verwenden .
gung - Wiedereinsetzung von Monica
Ich glaube nicht, dass ich es ganz verstehe. Ich führte eine schnelle Simulation mit Werten in jeder Gruppe mit n = 10 und α = 0,05 durch . Für drei orthogonale Kontraste erhalte ich eine 0,14-Chance auf mindestens ein falsches Positiv und für drei nicht-orthogonale Kontraste eine 0,12-Chance wie oben. Das ist sehr nah. Der Unterschied ist viel größer für die Wahrscheinlichkeit, alle drei Fehlalarme zu erhalten: 0,0001 und 0,002. Ich verstehe also, dass es mit Nicht-Orth viel wahrscheinlicher ist, mehrere signifikante Ergebnisse zu erzielen. Kontraste, aber wenn man sich mit der familiären Fehlerrate befasst, dann scheinen die beiden Fälle fast identisch zu sein. N(0,1)n=10α=0.05
Amöbe durchgeführt, sagt Reinstate Monica
6

ααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n , ist die Sidak-Korrektur ein bisschen leistungsfähiger (dh Sie erhalten leichter signifikante Ergebnisse), aber Bonferroni ist ein bisschen einfacher zu handhaben.

Wenn Sie ein noch leistungsfähigeres Verfahren benötigen, können Sie das Bonferroni-Holm-Verfahren verwenden.

Momo
quelle
Warum ist Bonferroni einfacher zu handhaben?
Emily
3
αn1-(1-α)1/n
@Momo Computers kann wirklich sehr gut rechnen, daher finde ich das Argument der Einfachheit nicht sehr überzeugend. Vor hundert Jahren, als die Berechnungen von Hand gemacht wurden, war das natürlich eine ganz andere Geschichte.
Michael McGowan
+1 im Vergleich zu meiner Antwort, das kommt ziemlich kurz auf den Punkt ;-).
gung - Wiedereinsetzung von Monica
Haha, das habe ich gedacht, du meinst es! Vielen Dank!
Emily
5

Die Sidak-Korrektur geht davon aus, dass die einzelnen Tests statistisch unabhängig sind. Die Bonferroni-Korrektur geht davon nicht aus.

ein Stop
quelle
Bedeutet das, dass der Bonferroni einfach ein konservativerer Test ist?
Emily
1
Bonferroni ist konservativer, wenn beide Tests angemessen sind. Wenn Ihre Tests nicht unabhängig sind, sollten Sie Sidak nicht verwenden.
am
2
+1 Dass die Bonferroni-Korrektur nicht erfordert, dass die Tests unabhängig sind, ist ein guter Punkt, den ich nicht behandelt habe.
gung - Wiedereinsetzung von Monica
@onestop: Was bedeutet es, dass die Tests unabhängig sind? Könnten Sie vielleicht ein Beispiel geben?
Gunnhild
1
Die Sidak-Korrektur erfordert keine Unabhängigkeit. Es wird nur davon ausgegangen, dass die Tests nicht negativ abhängig sind. Positive Abhängigkeit ist in Ordnung.
Bonferroni
4

Sidak und Bonferroni sind sich so ähnlich, dass Sie wahrscheinlich das gleiche Ergebnis erhalten, unabhängig davon, welches Verfahren Sie anwenden. Bonferroni ist nur unwesentlich konservativer als Sidak. Zum Beispiel würde Sidak für zwei Vergleiche und ein familienweises Alpha von 0,05 jeden Test bei 0,0253 und Bonferroni jeden Test bei 0,0250 durchführen.

Viele Kommentatoren auf dieser Website haben angegeben, dass Sidak nur gültig ist, wenn die Teststatistiken Ihrer Vergleiche unabhängig sind. Das ist nicht wahr. Sidak ermöglicht eine leichte Inflation der familienbezogenen Fehlerrate, wenn die Teststatistik NEGATIV abhängig ist. Wenn Sie jedoch zweiseitige Tests durchführen, ist die negative Abhängigkeit im Allgemeinen kein Problem. In nicht-negativer Abhängigkeit gibt Sidak tatsächlich eine Obergrenze für die familienbezogene Fehlerrate an. Das heißt, es gibt andere Verfahren, die eine solche Bindung bieten und dazu neigen, mehr statistische Macht zu behalten als Sidak. Also ist Sidak wahrscheinlich nicht die beste Wahl.

Eine Sache, die das Bonferroni-Verfahren vorsieht (die Sidak nicht tut), ist die strikte Kontrolle der erwarteten Anzahl von Fehlern des Typs I - die sogenannte "Fehlerrate pro Familie", die konservativer ist als die familienweise Fehlerrate. Weitere Informationen finden Sie unter: Frane, AV (2015) "Sind die Fehlerraten pro Familie Typ I in den Sozial- und Verhaltenswissenschaften relevant?" Journal of Modern Applied Statistical Methods 14 (1), 12-23.

Bonferroni
quelle