Wie viel kleiner können

Intro: Nachdem ich die Aufmerksamkeit zur Kenntnis genommen habe, die heute von dieser Frage erhalten wurde: " Kann ANOVA signifikant sein, wenn keiner der paarweisen t-Tests signifikant ist? " .

Eine Vielzahl von inkongruenten Ergebnissen (zum Nennwert) kann auftreten, wenn die statistische Signifikanz als einfache Dichotomie aufgefasst und auf der bloßen Basis beurteilt wird, die höher ist, das oder das . Die Antwort von @ Glen_b auf die obige Frage zeigt ein nützliches Beispiel für einen Fall, in dem: $p$ $\alpha$

Ein ANOVA- Test erzeugt ein für eine unabhängige Variable (IV) mit vier Ebenen, aber $F$ $p_F<.05$
$p_t>.08$ für alle $t$ Tests mit zwei Stichproben , die Unterschiede in derselben abhängigen Variablen (DV) zwischen Beobachtungen vergleichen, die jedem Paar der vier Stufen der IV entsprechen.

Ein ähnlicher Fall ergab sich trotz Bonferroni-Korrekturen für post-hoc paarweise Vergleiche über diese Frage: Anova-Wiederholungsmessungen sind signifikant, aber alle Mehrfachvergleiche mit der Bonferroni-Korrektur sind nicht signifikant? Es gibt auch bereits erwähnte Fälle mit einem etwas anderen Test in multipler Regression:

Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests? : $p_F<.001,p_{\beta t}>.09$
Wie kann eine Regression signifikant sein, obwohl alle Prädiktoren nicht signifikant sind?
- In @ whubers Antwort ist $p_F=.0003,p_{\beta t}>.09$

Ich wette, dass in solchen Fällen einige (aber nicht alle) $p$ Werte von $\alpha$ $p <\alpha$ paarweisen Vergleichen (oder Signifikanztests für Regressionskoeffizienten) ziemlich nahe an liegen müssen, wenn ein entsprechender Omnibus-Test ein . Ich sehe, dass dies in @ Glen_bs erstem Beispiel der Fall ist, wo $F_{(3,20)}=3.19$ , $p_F=.046$ und die größte paarweise Differenz das kleinste $p_t=.054$ . Muss das überhaupt so sein? Genauer gesagt :

Frage: Wenn ein ANOVA $F$ einen $p_F=.05$ für den Effekt einer polytomen IV auf eine kontinuierliche DV ergibt , wie hoch könnte der niedrigste $p$ Wert unter allen zwei Stichproben- $t$ Tests sein, die jedes Paar der IV-Ebenen vergleichen? Könnte die minimale paarweise Signifikanz so hoch sein wie $p_t=.50$ ?

_{Ich begrüße Antworten, die sich nur mit dieser speziellen Frage befassen . Um diese Frage jedoch weiter zu motivieren, werde ich einige potenziell rhetorische Fragen ausarbeiten und einwerfen. Gerne können Sie auch auf diese Bedenken eingehen und die spezifische Frage ignorieren, wenn Sie möchten, insbesondere wenn die spezifische Frage eine endgültige Antwort erhält.}

Signifikanz: Überlegen Sie, um wie viel weniger wichtig der Unterschied zwischen einem und einem wäre, wenn die statistische Signifikanz kontinuierlich anhand der Beweiskraft gegen die Nullhypothese beurteilt würde (Ron Fischers Ansatz, denke ich?). anstatt dichotomisch über oder unter einer Schwelle von für eine akzeptable Fehlerwahrscheinlichkeit bei der Auswahl, ob der Nullgroßhandel abgelehnt werden soll. " hacking " ist ein bekanntes Problem, das teilweise seine Bekanntheit einer unnötigen Verwundbarkeit verdankt, die durch die Interpretation von $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ Werte gemäß der gängigen Praxis der Zweiteilung der Signifikanz in die Äquivalente "gut genug" und "nicht gut genug". Wenn man diese Praxis ablehnen und sich stattdessen darauf konzentrieren würde, Werte als Beweiskraft gegen die Null in einem kontinuierlichen Intervall zu interpretieren , wäre Omnibus-Test möglicherweise weniger wichtig, wenn man sich wirklich um mehrere paarweise Vergleiche kümmert? Nicht unbedingt nutzlos, da natürlich eine einigermaßen effiziente Verbesserung der statistischen Genauigkeit wünschenswert ist, aber ... wenn zum Beispiel der Wert des niedrigsten paarweisen Vergleichs notwendigerweise innerhalb von des ANOVA (oder eines anderen Omnibus-Tests) $p$ $p$ $.10$ $p$ Wert, macht dies den Omnibus-Test nicht etwas trivialer, weniger obligatorisch und noch irreführender (in Verbindung mit bereits bestehenden Missverständnissen), insbesondere wenn man über mehrere Tests hinweg kontrollieren möchte ? $\alpha$

Wenn umgekehrt Daten vorhanden sein können, bei denen ein Omnibus , aber alle paarweise , sollte dies nicht zu einer weiteren Motivation für Omnibus- und Kontrasttests in der gesamten Praxis und Pädagogik führen? Meines Erachtens sollte dieses Thema auch die relativen Vorzüge der Beurteilung der statistischen Signifikanz nach einer Dichotomie im Vergleich zu einem Kontinuum aufzeigen, da das dichotome Interpretationssystem empfindlicher für kleine Anpassungen sein sollte, wenn Unterschiede "geringfügig signifikant" sind, während keines der beiden Systeme ist sicher vor dem Versagen, einen Sammelbustest durchzuführen oder für mehrere Vergleiche anzupassen, wenn diese Differenz / Anpassung sehr groß sein kann (z. B. . $p=.05$ $p>.50$ $p_t-p_F>.40)$

_{Andere wahlweise zu berücksichtigende oder zu ignorierende Komplexitäten - was die Beantwortung einfacher und lohnender macht :}

^{Wie hoch s für s könnte sein , wenn für , statt (zB ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Empfindlichkeit gegenüber der Anzahl der Ebenen in einem polytomen IV}
^{Empfindlichkeit für Ungleichmäßigkeiten in der Signifikanz paarweiser Differenzen (während alle ) $p_t>p_F$}
- ^{Die Antwort von whuber zeigt, dass das Einbeziehen kleiner Unterschiede große Unterschiede überdecken kann.}
^{Unterschiede zwischen den Korrekturen verschiedener Omnibus-Tests für mehrere Vergleiche}
- ^{Siehe auch: Korrektur für Mehrfachvergleiche in einer innerhalb von Probanden / wiederholten Maßnahmen ANOVA; übermäßig konservativ?}
- ^{Bei mehreren intravenösen Infusionen kann Multikollinearität dieses Problem verschlimmern .}
^{Eingeschränkte Fälle, in denen Daten alle Annahmen klassischer parametrischer Tests optimal erfüllen}
- ^{Diese Einschränkung kann wichtig sein, um zu verhindern, dass diese Frage etwas umstritten ist.}

hypothesis-testing anova statistical-significance t-test multiple-comparisons Nick Stauner
quelle

Möglicherweise möchten Sie klären, ob für die paarweisen t-Tests dieselbe Schätzung der Fehlervarianz wie für den Omnibus-F-Test verwendet werden soll (im Beispiel von Glen ist dies nicht der Fall).

Scortchi

Ich meinte einen gewöhnlichen t-Test für die mit , aber mit berechnet als Quadratwurzel des mittleren ANOVAR-Quadratfehlers. Dies ist der übliche paarweise Post-Hoc-T-Test , der sich im Gegensatz zu Tukeys HSD nicht für mehrere Vergleiche eignet. Es enthält Informationen aus allen Gruppen, ist jedoch unabhängig von Unterschieden in den Gruppenmitteln.

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$

Scortchi

Ich sehe (irgendwie)! Ich möchte in erster Linie dem Beispiel von @ Glen_b folgen und nicht , sondern die erste von Ihnen erwähnte Formel verwenden, um zu vermeiden, dass Informationen aus allen Gruppen eingefügt werden. Das soll nicht heißen, dass ich hier eine starke Präferenz habe ... aber ein Teil meiner ursprünglichen Absicht war es, eine Variante des gemeinsamen Themas in diesen Fragen zu präsentieren: "Was ist der wahre Schaden, wenn man Informationen ignoriert, die über die beiden fraglichen Gruppen hinausgehen? Zwei-Stichproben-Test unter vielen? " Ich denke, dieses Thema ist es auch wert, in dieser Entscheidung ausgeführt zu werden.

\sqrt{MSE}

$\sqrt{\text{MSE}}$

Nick Stauner

@Scortchi Bei der anderen Frage habe ich ein Beispiel eingefügt, das Ihren ersten Kommentar abdeckt (dh wo die Tests mit der gemeinsamen Fehlervarianz und df durchgeführt werden), obwohl alle Tests (F und Mehrfachvergleiche) auf einem ziemlich niedrigen Signifikanzniveau durchgeführt werden (0,0025, nicht 0,05). Im Vergleich zu den einzelnen gewöhnlichen Zwei-Stichproben-T-Tests, wie sie von Nick S. hier gestellt wurden, zeigt sich, dass ein beträchtlicher Unterschied in der Signifikanz möglich ist (in diesem Fall ist für alle gewöhnlichen T-Tests, noch ). Ich glaube, mit vielen Gruppen ist es möglich, viel weiter zu gehen.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

Glen_b

Ich habe vor einigen Minuten eine Antwort auf den ersten Teil dieser Frage in einem Kommentar unter stats.stackexchange.com/questions/83030/… skizziert .

whuber

Unter der Annahme , dass für jede Behandlung in einem Einweg-Layout s gleich sind (siehe Anmerkung 2 unten) und dass die gepoolte SD aller Gruppen in den Tests verwendet wird (wie dies bei üblichen Post-hoc-Vergleichen der Fall ist), ist das Maximum möglich - Wert für einen - Test (hier bezeichnet den CDF). Somit kann kein so hoch wie . Interessanterweise (und ziemlich bizarr) gilt die Grenze nicht nur für , sondern für jedes Signifikanzniveau, das wir für benötigen . $n$ $t$ $p$ $t$ $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ $0.5$ $.1573$ $p_F=.05$ $F$

Die Begründung lautet wie folgt: Für einen gegebenen Bereich von Stichprobenmitteln ist , die größtmögliche Statistik wird erreicht, wenn die Hälfte von am einen Ende und die andere Hälfte am anderen Ende liegt. Dies stellt den Fall dar, in dem am signifikantesten erscheint, vorausgesetzt, zwei Mittelwerte unterscheiden sich um höchstens . $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ $F$ $\bar y_i$ $F$ $2a$

Nehmen wir also ohne Einschränkung der Allgemeinheit an, dass so dass in diesem Grenzfall ist. Angenommen, ist ohne der Allgemeinheit, da wir die Daten immer auf diesen Wert können. Betrachten wir nun Mittel (wobei Einfachheit halber gerade ist (siehe Anmerkung 1 unten)), so ergibt sich . Wenn Sie so , dass , erhalten Sie . Wenn das gesamte sind (und noch ), die jeweils ungleich Null $\bar y_.=0$ $\bar y_i=\pm a$ $MS_E=1$ $k$ $k$ $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ $p_F=\alpha$ $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ $\bar y_i$ $\pm a$ $MS_E=1$ $t$ Statistik ist somit . Dies ist der kleinstmögliche maximale Wert, wenn . $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ $t$ $F=F_\alpha$

Sie können also einfach verschiedene Fälle von und versuchen , und das zugehörige . Jedoch bemerkt , dass für die gegebenen , ist in abnehm [aber siehe Anmerkung 3 unten]; Außerdem ist , wie , ; Also . Man beachte, dass das Mittel und SD . Also , unabhängig davon $k$ $n$ $t$ $p_t$ $k$ $F_\alpha$ $n$ $n\rightarrow\infty$ $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ $\frac{k-1}k$ $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ $\alpha$ , und das Ergebnis, das ich oben im ersten Absatz angegeben habe, ergibt sich aus der asymptotischen Normalität.

Es dauert jedoch lange, bis diese Grenze erreicht ist. Hier sind die Ergebnisse (berechnet mit R) für verschiedene Werte von unter Verwendung von : $k$ $\alpha=.05$

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Ein paar lose Enden ...

Wenn k ungerade ist: Die maximale Statistik tritt immer noch auf, wenn die alle ; Wir haben jedoch einen Wert mehr an einem Ende des Bereichs als am anderen, was den Mittelwert ergibt, und Sie können zeigen, dass der Faktor in der Statistik durch . Dies ersetzt auch den Nenner von , macht ihn etwas größer und verringert damit . $F$ $\bar y_i$ $\pm a$ $\pm a/k$ $k$ $F$ $k-\frac 1k$ $t$ $p_t$
Ungleich : $n$ Das Maximum wird immer noch mit , wobei die Zeichen so angeordnet sind, dass die Stichprobengrößen möglichst gleichmäßig verteilt werden. Dann ist die Statistik für dieselbe Gesamtstichprobengröße gleich oder kleiner als für ausgeglichene Daten. Darüber hinaus ist die maximale Statistik größer, da sie die mit dem größten . Wir können also keine größeren Werte erhalten, wir uns unausgeglichene Fälle . $F$ $\bar y_i = \pm a$ $F$ $N = \sum n_i$ $t$ $n_i$ $p_t$
Eine leichte Korrektur: Ich habe mich so darauf konzentriert, das Minimum zu finden, dass ich die Tatsache übersehen habe, dass wir versuchen, zu maximieren , und es ist weniger offensichtlich, dass ein größeres mit weniger df nicht weniger ist als ein kleineres mit mehr df. Ich habe dies jedoch überprüft, indem ich die Werte für berechnet habe bis die df hoch genug sind, um einen geringen Unterschied zu machen. Für den Fall ich keine Fälle gesehen, in denen die Werte nicht mit anstiegen . Man beachte, dass so dass die möglichen df die schnell groß werden, wenn $t$ $p_t$ $t$ $n=2,3,4,\ldots$ $\alpha=.05, k\ge 3$ $p_t$ $n$ $df=k(n-1)$ $k,2k,3k,\ldots$ $k$ ist groß. Mit dem obigen Claim bin ich also immer noch auf sicherem Boden. Ich habe auch getestet , und der einzige Fall, bei dem ich festgestellt habe, dass die Schwelle überschritten wurde, war . $\alpha=.25$ $.1573$ $k=3,n=2$

rvl
quelle

Wie viel kleiner können

Antworten: