Zusammenhang zwischen Omnibus-Test und Mehrfachvergleich?

8

Methoden, die auf einem Omnibus-Test beruhen, bevor mehrere Vergleiche durchgeführt werden . Typischerweise erfordern diese Methoden einen signifikanten ANOVA / Tukey-Bereichstest, bevor mehrere Vergleiche durchgeführt werden. Diese Methoden haben eine "schwache" Kontrolle des Fehlers vom Typ I.

Ebenfalls

Der F-Test in ANOVA ist ein Beispiel für einen Omnibus-Test, der die Gesamtsignifikanz des Modells testet. Ein signifikanter F-Test bedeutet, dass sich unter den getesteten Mitteln mindestens zwei der Mittel signifikant unterscheiden, aber dieses Ergebnis gibt nicht genau an, welche Mittel sich voneinander unterscheiden. Tatsächlich wurden durch die quadratische rationale F-Statistik (F = MSB / MSW) Unterschiede zwischen Testmitteln festgestellt. Um festzustellen, welcher Mittelwert sich von einem anderen Mittelwert unterscheidet oder welcher Mittelwertkontrast sich signifikant unterscheidet, sollten Post-Hoc-Tests (Mehrfachvergleichstests) oder geplante Tests durchgeführt werden, nachdem ein signifikanter Omnibus-F-Test erhalten wurde. Es kann in Betracht gezogen werden, die einfache Bonferroni-Korrektur oder eine andere geeignete Korrektur zu verwenden.

Daher wird ein Omnibus-Test verwendet, um die Gesamtsignifikanz zu testen, während durch Mehrfachvergleich ermittelt wird, welche Unterschiede signifikant sind.

Wenn ich das richtig verstehe, besteht der Hauptzweck des Mehrfachvergleichs darin, die Gesamtsignifikanz zu testen und festzustellen, welche Unterschiede signifikant sind. Mit anderen Worten, Mehrfachvergleiche können das tun, was ein Omnibus kann. Warum brauchen wir dann einen Omnibus-Test?

hypothesis-testing multiple-comparisons Tim
quelle

7

Der Zweck von Mehrfachvergleichsverfahren besteht nicht darin, die Gesamtsignifikanz zu testen, sondern einzelne Effekte auf Signifikanz zu testen, während die experimentelle Fehlerrate gesteuert wird. Es ist durchaus möglich, dass beispielsweise ein Omnibus-F-Test auf einem bestimmten Niveau signifikant ist, während keiner der paarweisen Tukey-Tests dies ist - es wird hier und hier diskutiert .

Stellen Sie sich ein sehr einfaches Beispiel vor: Testen Sie, ob zwei unabhängige Normalvariablen mit Einheitsvarianz beide den Mittelwert Null haben

{H.}_{0} :: μ_{1} = 0 \land μ_{2} = 0

$H_0: \mu_1=0 \land \mu_2=0$

{H.}_{1} :: μ_{1} \neq 0 \lor μ_{2} \neq 0

$H_1: \mu_1 \neq 0 \lor \mu_2\neq 0$

Test Nr. 1: Ablehnen, wenn

{X.}_{1}^{2} + {X.}_{2}^{2} \geq {F.}_{χ_{2}^{2}}^{- - 1} (1 - - α)

$X_1^2+X_2^2 \geq F^{-1}_{\chi^2_2}(1-\alpha)$

Test 2: Ablehnen, wenn

| {X.}_{1} | \lor | {X.}_{2} | \geq {F.}_{N.}^{- - 1} (1 - - \frac{1 - - \sqrt{1 - - α}}{2})

$|X_1| \lor |X_2|\geq F^{-1}_{\mathcal{N}} \left(1-\frac{1-\sqrt{1-\alpha}}{2}\right)$

(Verwenden der Sidak-Korrektur, um die Gesamtgröße beizubehalten). Beide Tests haben die gleiche Größe ( ), aber unterschiedliche Ablehnungsbereiche: $\alpha$

Darstellung der Ablehnungsbereiche

Test Nr. 1 ist ein typischer Omnibus-Test: Stärker als Test Nr. 2, wenn beide Effekte groß sind, aber keiner so groß ist. Test Nr. 2 ist ein typischer Test mit mehreren Vergleichen: Stärker als Test Nr. 1, wenn einer der Effekte groß und der andere klein ist, und ermöglicht auch das unabhängige Testen der einzelnen Komponenten der globalen Null.

Zwei gültige Testverfahren, die die experimentelle Fehlerrate bei steuern, sind folgende: $\alpha$

(1) Test Nr. 1 durchführen & entweder (a) die globale Null nicht ablehnen oder (b) die globale Null ablehnen, dann (& nur in diesem Fall) Test Nr. 2 durchführen & entweder (i) keine Komponente ablehnen, (ii) die erste Komponente ablehnen, (ii) die zweite Komponente ablehnen oder (iv) beide Komponenten ablehnen.

(2) Führen Sie nur Test Nr. 2 durch und entweder (a) lehnen Sie keine der Komponenten ab (wodurch die globale Null nicht abgelehnt wird), (b) lehnen Sie die erste Komponente ab (und lehnen Sie damit auch die globale Null ab), (c) lehnen Sie die zweite Komponente ab ( somit auch die globale Null ablehnen) oder (d) beide Komponenten ablehnen (also auch die globale Null ablehnen).

Sie können Ihren Kuchen nicht haben und ihn essen, indem Sie Test 1 ausführen und die globale Null nicht ablehnen, aber dennoch Test 2 ausführen: Die Fehlerrate vom Typ I ist für dieses Verfahren größer als . $\alpha$

Scortchi - Monica wieder einsetzen
quelle

Vielen Dank! (1) Wird die globale Null nicht genau dann abgelehnt, wenn mindestens eine einzelne Null abgelehnt wird? So können mehrere Vergleichsverfahren die globale Null testen, dh die Gesamtsignifikanz? (2) "aber nur um einzelne Effekte auf Signifikanz zu testen, während die experimentelle Fehlerrate gesteuert wird", meinen Sie, dass mehrere Vergleichsverfahren identifizieren können, welche einzelnen Nullen zurückgewiesen werden, wenn die globale Null zurückgewiesen wird?

Tim

2

(1) Das ist richtig, wenn Sie "und nur wenn" streichen. Poirot kann sicher sein, dass sich an Bord des Orient Express ein Mörder befindet, ohne sicher zu sein, wer es ist. (Aber ich sollte das ' einzige ' aus meiner Antwort entfernen ) (2) Ja.

Scortchi - Monica wieder einsetzen

Vielen Dank! Bedeuten Sie in (1) "Wenn Sie streichen 'und nur wenn'", dass mehrere Vergleichsverfahren zum Testen der globalen Null verwendet werden können, aber mehr falsch negative Fehler als bei einem Omnibus-Test auftreten?

Tim

Falsch negative Fehlerraten hängen davon ab, wie falsch die Null ist. Siehe das Beispiel, das ich hinzugefügt habe.

Scortchi - Monica wieder einsetzen

1

$2^m$ $\cap H_i^0$

Ein Omnibus-Test ist normalerweise ein Name zum Testen der globalen Nullhypothese. Eine absolute Mindestanforderung für ein Mehrfachtestverfahren ist die Fehlerkontrolle unter der globalen Null. Dies ist als "schwache FWER" -Kontrolle bekannt. Aber Sie werden wahrscheinlich nicht damit aufhören - um auf bestimmte Hypothesen schließen zu können, möchten Sie ein Verfahren, das FWER-Kontrolle unter einer beliebigen Kombination von echten Nullen bietet. Dies ist als "starke FWER" -Kontrolle bekannt.

JohnRos
quelle

2^{m}

$2^m$

k

$k$

k (k - 1) / 2

$k(k-1)/2$

k

$k$

Ich denke, was JohnRos meinte, ist, dass es 2 ^ m mögliche Kombinationen von wahren / falschen Nullhypothesen gibt. Wenn es beispielsweise 3 Nullhypothesen gibt und jede wahr (T) oder falsch (F) sein kann, gibt es 2 ^ 3 = 8 mögliche Szenarien: TTT, TTF, TFT, TFF, FTT, FTF, FFT, FFF . Wie das relevant ist, weiß ich nicht genau, da wir für mehrere Vergleiche an der Anzahl der Tests (3) interessiert sind, nicht an der Anzahl der eindeutigen Kombinationen von Ts und Fs.

Bonferroni

1

Zusätzlich zu den Berechnungen, die mit Pair-Wise-Tests verbunden sind, gibt es noch einen weiteren Grund, warum ANOVA verwendet wird, anstatt alle PAIR-WISE-Tests durchzuführen.

Manchmal ist es möglich, dass ANOVA zwar die Nullhypothese ablehnt, dass alle Populationsmittelwerte bei einem gewissen Konfidenzniveau gleich sind, aber wenn Sie alle paarweisen Tests (z. B. LSD) durchführen, finden Sie möglicherweise nicht einmal mindestens ein Mittelwertpaar überschreitet den Unterschied bei diesem Konfidenzniveau.

Mathematischer Beweis für die obige Aussage unter Berücksichtigung der paarweisen LSD-Tests von FISHER

$S_p$

$N$ $N(N-1)/2$

$N(N-1)/2$

$(N-1)$

$N/2$

Selbst wenn alle paarweisen LSD-Tests zusammen die Nullhypothesen nicht ablehnen können, besteht dennoch eine gute Chance, dass ANOVA die Nullhypothesen ablehnen kann.

Daher enthält ANOVA mehr Informationen als in allen paarweisen Tests, die zusammen betrachtet werden.

PS: Entschuldigung für die Verwendung des Bildes, anstatt die Gleichungen auszutippen.

Honig Dachs
quelle

Zusammenhang zwischen Omnibus-Test und Mehrfachvergleich?

Antworten: