Ich verwende ein verallgemeinertes lineares Modell in SPSS, um die Unterschiede in der durchschnittlichen Anzahl von Raupen (nicht normal, unter Verwendung der Tweedie-Verteilung) an 16 verschiedenen Pflanzenarten zu untersuchen.
Ich möchte mehrere Vergleiche durchführen, bin mir jedoch nicht sicher, ob ich einen Sidak- oder Bonferroni-Korrekturtest verwenden soll. Was ist der Unterschied zwischen den beiden Tests? Ist einer besser als der andere?
Antworten:
Wenn Sie unabhängige statistische Tests mit α als Signifikanzniveau durchführen und die Null für jeden Test einzeln ermittelt wird, die langfristige Fehlerrate des Typs I jedoch über den Satz von 3 Tests hinweg höher ist. Wenn Sie der Meinung sind, dass es sinnvoll ist, diese drei Tests zu gruppieren / zusammenzufassen, sollten Sie die Typ-I-Fehlerrate für den gesamten Satz auf α haltenk α Fall ermittelt, ist es einfach eine Ziehung aus einer Zufallsvariablen, ob Sie "Signifikanz" finden oder nicht. Insbesondere wird es aus einer Binomialverteilung mit und n = k genommen . Wenn Sie beispielsweise vorhaben , 3 Tests mit α = 0,05 durchzuführen , und (ohne Ihr Wissen) in jedem Fall kein Unterschied besteht, besteht eine Wahrscheinlichkeit von 5%, in jedem Test ein signifikantes Ergebnis zu erzielen. Auf diese Weise wird die Fehlerrate vom Typ I auf α gehaltenp=α n=k α=.05 α α und nicht nur für sich. Wie solltest du vorgehen? Es gibt zwei , die Mitte nähert sich von der ursprünglichen auf Verschiebung (dh α o ) auf einen neuen Wert (dh α n e w ):α αo αnew
Bonferroni: Passen Sie das zur Beurteilung der "Signifikanz" verwendete so an, dassα
Dunn-Sidak: Stellen Sie mit einα
(Beachten Sie, dass der Dunn-Sidak davon ausgeht, dass alle Tests innerhalb des Satzes unabhängig voneinander sind und eine familienweise Typ-I-Fehlerinflation ergeben könnten, wenn diese Annahme nicht zutrifft.)
Es ist wichtig zu beachten , dass bei Prüfungen durchführt, gibt es zwei Arten von Fehlern , die Sie vermeiden wollen, Typ I (dh sagen , es ist ein Unterschied , wenn es nicht ein) und Typ II (dh sagen , es nicht ist ein Unterschied, wenn es tatsächlich ist). Wenn Leute über dieses Thema diskutieren, diskutieren sie in der Regel nur Fehler des Typs I und scheinen sich dessen nur bewusst zu sein bzw. sich damit zu befassen. Außerdem wird häufig übersehen, dass die berechnete Fehlerrate nur dann gültig ist , wenn alle Nullen wahr sind. Es liegt auf der Hand, dass Sie keinen Fehler vom Typ I machen können, wenn die Nullhypothese falsch ist, aber es ist wichtig, diese Tatsache bei der Erörterung dieses Problems explizit zu berücksichtigen.
Ich erwähne dies, weil es Implikationen dieser Tatsachen gibt, die anscheinend oft unberücksichtigt bleiben. Erstens, wennk>1 bietet der Dunn-Sidak-Ansatz eine höhere Leistung (obwohl der Unterschied bei kleinem sehr klein sein kann ) und sollte daher immer bevorzugt werden (falls zutreffend). Zweitens sollte ein "Step-Down" -Ansatz verwendet werden. Das heißt, testen Sie zuerst den größten Effekt. Wenn Sie davon überzeugt sind, dass die Null in diesem Fall nicht erreicht wird, beträgt die maximal mögliche Anzahl von Fehlern des Typs I k - 1 , daher sollte der nächste Test entsprechend angepasst werden und so weiter. (Dies macht Menschen oft unangenehm und sieht aus wie Angeln, ist es aber nichtk k−1 Angeln, da die Tests unabhängig sind und Sie beabsichtigten, sie durchzuführen, bevor Sie jemals die Daten gesehen haben. Dies ist nur eine Möglichkeit, optimal einzustellen .) α
Das oben Gesagte gilt unabhängig davon, wie Sie Typ I in Bezug auf Typ II-Fehler bewerten. Von vornherein gibt es jedoch keinen Grund zu der Annahme, dass Fehler des Typs I schlimmer sind als Fehler des Typs II (obwohl dies anscheinend von allen angenommen wird). Stattdessen ist dies eine Entscheidung, die vom Forscher getroffen werden muss und spezifisch für diese Situation sein muss. Persönlich, wenn ich theoretisch vorgeschlagene a priori orthogonale Kontraste ablaufe , passe ich normalerweise .α
(Und dies wiederum zu erklären, weil es wichtig ist, alle oben gehen davon aus, dass die Tests unabhängig sind. Wenn die Kontraste sind nicht unabhängig, wie wenn mehrere Behandlungen des jeweils im Vergleich zur gleichen Kontrolle sind, ein anderer Ansatz als Einstellung, wie Dunnett-Test sollte verwendet werden.)α
quelle
Wenn Sie ein noch leistungsfähigeres Verfahren benötigen, können Sie das Bonferroni-Holm-Verfahren verwenden.
quelle
Die Sidak-Korrektur geht davon aus, dass die einzelnen Tests statistisch unabhängig sind. Die Bonferroni-Korrektur geht davon nicht aus.
quelle
Sidak und Bonferroni sind sich so ähnlich, dass Sie wahrscheinlich das gleiche Ergebnis erhalten, unabhängig davon, welches Verfahren Sie anwenden. Bonferroni ist nur unwesentlich konservativer als Sidak. Zum Beispiel würde Sidak für zwei Vergleiche und ein familienweises Alpha von 0,05 jeden Test bei 0,0253 und Bonferroni jeden Test bei 0,0250 durchführen.
Viele Kommentatoren auf dieser Website haben angegeben, dass Sidak nur gültig ist, wenn die Teststatistiken Ihrer Vergleiche unabhängig sind. Das ist nicht wahr. Sidak ermöglicht eine leichte Inflation der familienbezogenen Fehlerrate, wenn die Teststatistik NEGATIV abhängig ist. Wenn Sie jedoch zweiseitige Tests durchführen, ist die negative Abhängigkeit im Allgemeinen kein Problem. In nicht-negativer Abhängigkeit gibt Sidak tatsächlich eine Obergrenze für die familienbezogene Fehlerrate an. Das heißt, es gibt andere Verfahren, die eine solche Bindung bieten und dazu neigen, mehr statistische Macht zu behalten als Sidak. Also ist Sidak wahrscheinlich nicht die beste Wahl.
Eine Sache, die das Bonferroni-Verfahren vorsieht (die Sidak nicht tut), ist die strikte Kontrolle der erwarteten Anzahl von Fehlern des Typs I - die sogenannte "Fehlerrate pro Familie", die konservativer ist als die familienweise Fehlerrate. Weitere Informationen finden Sie unter: Frane, AV (2015) "Sind die Fehlerraten pro Familie Typ I in den Sozial- und Verhaltenswissenschaften relevant?" Journal of Modern Applied Statistical Methods 14 (1), 12-23.
quelle