Warum sollte man bei der Durchführung eines t-Tests lieber von gleichen Varianzen ausgehen (oder diese testen), als immer eine Welch-Näherung des df zu verwenden?

47

Wenn die Annahme der Homogenität der Varianz erfüllt ist, scheinen die Ergebnisse eines nach Welch eingestellten t-Tests und eines Standard-t-Tests ungefähr gleich zu sein. Warum nicht einfach immer das von Welch eingestellte t verwenden?

russellpierce
quelle

Antworten:

33

Ich möchte die beiden anderen Antworten auf der Grundlage eines Artikels von Kubinger, Rasch und Moder (2009) ablehnen .

Sie argumentieren, basierend auf "umfangreichen" Simulationen von Verteilungen, die entweder die durch einen t-Test auferlegten Annahmen erfüllen oder nicht (Normalität und Homogenität der Varianz), dass die Welch-Tests gleich gut abschneiden, wenn die Annahmen erfüllt sind (dh im Wesentlichen gleich sind Wahrscheinlichkeit, Alpha- und Betafehler zu begehen), übertrifft jedoch den t-Test, wenn die Annahmen nicht erfüllt werden, insbesondere in Bezug auf die Leistung. Sie empfehlen daher, den Welch-Test immer dann anzuwenden, wenn die Stichprobengröße 30 überschreitet.

Als Metakommentar: Für statistisch Interessierte (wie ich und wahrscheinlich auch die meisten anderen hier) sollte ein auf Daten basierendes Argument (wie meins) mindestens gleichermaßen als Argumente gelten, die ausschließlich auf theoretischen Gründen beruhen (wie die anderen hier).


Update:
Nachdem ich über dieses Thema noch einmal nachgedacht habe, habe ich zwei weitere Empfehlungen gefunden, von denen die neuere meinen Standpunkt untermauert. Schauen Sie sich die Originalarbeiten an (die beide, zumindest für mich, frei verfügbar sind), um zu den Argumenten zu gelangen, die zu diesen Empfehlungen führen.

Die erste Empfehlung stammt von Graeme D. Ruxton aus dem Jahr 2006: " Wenn Sie die zentrale Tendenz von 2 Populationen anhand von Stichproben von nicht verwandten Daten vergleichen möchten, sollte der t-Test mit ungleicher Varianz immer dem t-Test des Schülers vorgezogen werden oder Mann-Whitney-U-Test. "
In:
Ruxton, GD, 2006. Der ungleiche Varianz-t-Test ist eine zu wenig genutzte Alternative zum Student-t-Test und dem Mann-Whitney-U-Test . Behav. Ecol . 17, 688–690.

Die zweite (ältere) Empfehlung stammt von Coombs et al. (1996, S. 148) . : " Zusammenfassend ist die unabhängige Stichproben t - Test ist in der Regel akzeptabel in Bezug auf die Steuerung des Typs I Fehlerraten vorausgesetzt , es sind ausreichend groß , gleich große Proben, selbst wenn die gleiche Varianz der Annahme verletzt wird. Für ungleiche Bei Stichproben mit kleinerer Größe ist jedoch eine Alternative vorzuziehen, bei der nicht die gleiche Varianz der Grundgesamtheit angenommen wird. Verwenden Sie den James-Test zweiter Ordnung, wenn die Verteilungen entweder kurzschwänzig symmetrisch oder normal sind Bessere Kontrolle der Typ-I-Fehlerraten als beim Welch-Test oder beim James-Test. Höhere Leistung, wenn Daten mit langen Schwänzen vorliegen. " (Hervorhebung hinzugefügt)
In:
Coombs WT, Algina J, Oltman D. 1996. Es wurden univariate und multivariate Omnibus-Hypothesentests ausgewählt, um die Fehlerraten von Typ I zu kontrollieren, wenn die Populationsvarianzen nicht unbedingt gleich sind . Rev Educ Res 66: 137–79.

Henrik
quelle
3
Meta-Response: Guter Punkt. Aber Ihre Daten verhalten sich möglicherweise nicht so wie meine! :-)
whuber
Henrik, würde es Ihnen etwas ausmachen, wenn ich die Antwort bearbeite, um: (1) die Terminologie zu ändern, indem ich die Tests Student's t-test und Welch's t-test aufrufe (wie ich in den meisten Literaturstellen festgestellt habe); (2) Fügen Sie ein anderes Papier hinzu, das dies in der Diskussion vorschlägt : rips-irsp.com/article/10.5334/irsp.82 (es betont die Verzerrung, die auftritt , wenn Sie Tests auswählen, die auf dem Levene-Homogenitätstest basieren).
Bruno
13

Natürlich könnte man beide Tests außer Kraft setzen und einen Bayes'schen t-Test (Savage-Dickey-Ratio-Test) verwenden, der ungleiche und ungleiche Varianzen erklären kann Nullhypothese (was bedeutet, dass nicht mehr von alten "Ablehnungsversagen" die Rede ist)

Dieser Test ist sehr einfach (und schnell) zu implementieren, und es gibt ein Dokument, das den Lesern, die mit Bayes-Statistiken nicht vertraut sind, klar erklärt, wie man ihn zusammen mit einem R-Skript verwendet. Sie können einfach Ihre Daten eingeben und die Befehle an die R-Konsole senden:

Wetzels, R., Raaijmakers, JGW, Jakab, E. & Wagenmakers, E.-J. (2009). Quantifizierung der Unterstützung für und gegen die Nullhypothese: Eine flexible WinBUGS-Implementierung eines Bayes'schen Standard-T-Tests.

Zu all dem gibt es auch ein Tutorial mit Beispieldaten:

http://www.ruudwetzels.com/index.php?src=SDtest

Ich weiß, dass dies keine direkte Antwort auf die gestellten Fragen ist, aber ich dachte, dass die Leser diese nette Alternative genießen könnten

Prost

Dave Kellen
quelle
8
Immer diese Bayesianer ...
Henrik
3
Eine weitere Bayes'sche Alternative zum t-Test ist Kruschkes BEST-Routine (Bayes'sche Schätzung ersetzt den t-Test). Mehr Infos hier: indiana.edu/~kruschke/BEST . Eine Online-Version finden Sie hier: sumsar.net/best_online .
Rasmus Bååth
7

Weil genaue Ergebnisse den Annäherungen vorzuziehen sind und Fälle mit ungeraden Kanten vermieden werden, in denen die Annäherung zu einem anderen Ergebnis führen kann als die genaue Methode.

Die Welch-Methode ist kein schnellerer Weg, einen alten t-Test durchzuführen, sondern eine praktikable Annäherung an ein ansonsten sehr schwieriges Problem: wie man einen t-Test unter ungleichen Varianzen erstellt. Der Fall der gleichen Varianz ist gut verstanden, einfach und genau und sollte daher immer verwendet werden, wenn dies möglich ist.

Reich
quelle
6
Ich glaube, ich stimme eher mit John Tukey überein - " Weitaus besser eine ungefähre Antwort auf die richtige Frage, die oft vage ist, als eine genaue Antwort auf die falsche Frage, die immer präzise
formuliert werden
4
Der Gleichvarianz (Student) t-Test selbst ist nur eine (unverstandene) Näherung, wenn die Varianzen der Stichprobe der Grundgesamtheit ungleich sind. Sofern nicht bekannt ist, dass die Populationsvarianzen gleich sind, ist es daher besser, eine Annäherung an die korrekte Stichprobenverteilung (Welch-Satterthwaite) zu verwenden, als eine absolut genaue Verteilung, die nicht für das Datenmodell gilt.
Whuber
4

Zwei Gründe, die mir einfallen:

  1. Regular Student's T ist ziemlich robust gegenüber Heteroskedastizität, wenn die Stichprobengrößen gleich sind.

  2. Wenn Sie a priori der festen Überzeugung sind, dass die Daten homoskedastisch sind, verlieren Sie nichts und können durch die Verwendung von Studen'ts T anstelle von Welch's T ein wenig an Leistung gewinnen.

Ein Grund, den ich nicht nennen würde , ist, dass das T des Schülers genau ist und das T von Welch nicht. IMHO ist die Genauigkeit von Student's T akademisch, weil es nur für normalverteilte Daten genau ist und keine realen Daten genau normalverteilt sind. Ich kann mir keine einzige Größe vorstellen, die Menschen tatsächlich messen und statistisch analysieren, wobei die Verteilung plausibel alle reellen Zahlen stützen könnte. Zum Beispiel gibt es nur so viele Atome im Universum, und einige Größen können nicht negativ sein. Wenn Sie also einen T-Test für reale Daten verwenden, machen Sie trotzdem eine Annäherung.

dsimcha
quelle
2
(1) ist falsch, wenn die zugrunde liegenden Populationsabweichungen sehr unterschiedlich sind. Um zu sehen, warum dies so ist, sollten Sie im Extremfall überlegen, was passiert, wenn eine Population überhaupt keine Varianz aufweist. Der Student würde tatsächlich Daten aus der anderen Population mit einer Konstanten vergleichen, aber er würde denken, dass er doppelt so viele Freiheitsgrade hat. Der Fehler, den es macht, wäre vergleichbar mit der Verwendung eines Z-Tests.
Whuber
Während dies @whuber wahr ist, ist es nur für sehr extreme Fälle. Ich habe gerade einen Varianzunterschied von 1e6: 1 und p ≈ .053 betrachtet. So kann es passieren, aber ich würde immer noch behaupten, es ist ziemlich robust mit gleich N.
John
ni
@whuber, ich schlage nur vor, dass Ihre Bemerkung zwar technisch richtig ist, die Welch-Korrektur jedoch nicht die Lösung für das von Ihnen als Beispiel angeführte Problem ist und die Robustheit des Tests in Bezug auf die Alpha-Raten nicht wirklich kritisch beurteilt (was ist was (1) normalerweise bedeutet). Wenn (extreme) ungleiche Varianz ein Problem ist, haben Sie andere Probleme, aber das ist wirklich ein anderes Thema.
John
3

Die Tatsache, dass etwas Komplexeres auf etwas weniger Komplexes reduziert wird, wenn eine Annahme überprüft wird, reicht nicht aus, um die einfachere Methode wegzuwerfen.


quelle
4
Vor allem, wenn es um Studierende geht.
Matt Parker
2

Ich würde hier die gegenteilige Ansicht vertreten. Warum sollten Sie sich mit dem Welch-Test beschäftigen, wenn der standardmäßige ungepaarte Student-T-Test nahezu identische Ergebnisse liefert? Ich habe dieses Problem vor einiger Zeit untersucht und eine Reihe von Szenarien untersucht, um den t-Test abzubrechen und den Welch-Test zu favorisieren. Dazu habe ich für eine Gruppe bis zu fünfmal größere Stichproben verwendet als für die andere. Und ich habe Abweichungen untersucht, die für eine Gruppe bis zu 25-mal größer sind als für die andere. Und es hat wirklich keinen materiellen Unterschied gemacht. Der ungepaarte t-Test ergab immer noch einen Bereich von p-Werten, der nahezu identisch mit dem Welch-Test war.

Sie können meine Arbeit unter dem folgenden Link sehen und sich besonders auf Folie 5 und 6 konzentrieren.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

Sympa
quelle
Es tut mir leid, welchen Unterschied machen Sie zwischen der großen und der kleinen Beispielformel? Berechnen Sie die Varianzen anhand einer Populationsformel in großen Stichproben, anstatt anhand einer Stichprobenschätzung der Populationsvarianz?
Russellpierce
Der ungepaarte Studententest hat zwei Formeln. Die Formel für große Stichproben wird auf Stichproben mit mehr als 30 Beobachtungen angewendet. Die kleine Stichprobenformel wird auf Stichproben mit weniger als 30 Beobachtungen angewendet. Der Hauptunterschied bei diesen Formeln besteht darin, wie sie den gepoolten Standardfehler berechnen. Die kleine Beispielformel ist viel komplizierter und weniger intuitiv. Und in Wirklichkeit macht es kaum einen Unterschied. Ich habe das mehrmals getestet. Das ist der Grund, warum ich denke, dass die meisten Menschen diese Unterscheidung vergessen haben. Und sie verwenden die meiste Zeit die große Beispielformel.
Sympa
0

Es ist wahr, dass die Frequentist-Eigenschaften des Welch-korrigierten Tests besser sind als das normale Student-T, zumindest in Bezug auf Fehler. Ich stimme zu, dass das allein ein ziemlich gutes Argument für den Welch-Test ist. Normalerweise zögere ich jedoch, die Welch-Korrektur zu empfehlen, da ihre Verwendung oft täuscht. Das ist freilich keine Kritik am Test selbst.

Der Grund, warum ich die Welch-Korrektur nicht empfehle, ist, dass sie nicht nur die Freiheitsgrade und die nachfolgende theoretische Verteilung ändert, aus denen der p-Wert abgeleitet wird. Dadurch wird der Test nicht parametrisch. Um einen Welch-korrigierten t-Test durchzuführen, wird die Varianz immer noch gepoolt, als ob eine gleiche Varianz angenommen werden könnte. Anschließend wird jedoch das endgültige Testverfahren geändert, was impliziert, dass entweder keine gleiche Varianz angenommen werden kann oder dass Sie sich nur um die Probenvarianzen kümmern. Dies macht es zu einem nicht parametrischen Test, da die gepoolte Varianz als nicht repräsentativ für die Grundgesamtheit angesehen wird und Sie eingeräumt haben, dass Sie nur Ihre beobachteten Werte testen.

An und für sich ist daran nichts besonders auszusetzen. Ich finde es jedoch trügerisch, weil a) es in der Regel nicht mit ausreichender Genauigkeit gemeldet wird; und b) die Leute, die es benutzen, neigen dazu, austauschbar mit einem t-Test darüber nachzudenken. Der einzige Weg, wie ich jemals weiß, dass dies in veröffentlichten Veröffentlichungen geschehen ist, ist, wenn ich einen ungeraden DF für die t-Verteilung sehe. Dies war auch die einzige Möglichkeit, die Rexton (auf die in der Henrik-Antwort verwiesen wird) im Rückblick feststellen konnte. Leider tritt die nicht-parametrische Natur des Welch-korrigierten Tests auf, unabhängig davon, ob sich die Freiheitsgrade geändert haben oder nicht (dh selbst wenn die Probenvarianzen gleich sind). Dieses Berichterstattungsproblem ist jedoch symptomatisch für die Tatsache, dass die meisten Personen, die die Welch-Korrektur verwenden, diese Änderung des Tests nicht erkannt haben.

Aus diesem Grund glaube ich, dass Sie, wenn Sie einen nicht parametrischen Test empfehlen, keinen verwenden sollten, der oft parametrisch erscheint, oder zumindest sehr klar darüber sind, was Sie tun. Der offizielle Name des Tests sollte Nicht-parametrischer T-Test mit Welch-Korrektur sein. Wenn die Leute das so melden würden, wäre ich mit Henriks Empfehlung viel zufriedener.

John
quelle
Ich konnte in Ihrer Antwort keine Unterstützung dafür finden, warum der Welch-Test "trügerisch" sein könnte. Können Sie die Grundlage dafür erläutern?
whuber
Vielleicht haben meine Änderungen die Dinge @whuber geklärt. Ich hätte klarstellen müssen, dass es nicht garantiert irreführend ist, sondern häufig sowohl für den Benutzer des Tests als auch für den Leser der Testergebnisse.
John
1
Danke. Abgesehen von dem Berichterstattungsproblem - das als Fehler des Tests zu bezeichnen, wäre unfair! - scheint dies auf einen Einwand Ihrer Seite zurückzuführen zu sein, dass der Welch-Test nicht parametrisch ist. Was könnte denn damit los sein? Ceteris paribus , das ist ein Vorteil, kein Problem.
Whuber
1
Es ist eine Unterscheidung, die im Allgemeinen nicht klar gemacht wird. Ich gebe in der Antwort zu, dass es nicht an sich ein Problem ist, aber die meisten Leute neigen dazu, es parametrisch zu behandeln, was ein Fehler ist. Ich glaube nicht, dass hier die Diskussion über Nutzen oder Kosten nichtparametrischer Tests angesagt ist. Außerdem wurde es nicht im Thread erwähnt und es kann für viele Menschen ein Problem sein. Abgesehen davon unterrichten zwei unserer Intro-Statistik-Klassen es parallel zum Student-T-Test und promoten es, haben aber einen eigenen Abschnitt über nicht-parametrische Tests.
John
Können Sie klarstellen, was Sie unter "macht den Test nichtparametrisch" verstehen?
Glen_b