Wenn der t-Test und die ANOVA für zwei Gruppen gleich sind, warum sind ihre Annahmen nicht gleich?

47

Ich bin mir sicher, dass ich das komplett um meinen Kopf gewickelt habe, aber ich kann es einfach nicht herausfinden.

Der t-Test vergleicht zwei Normalverteilungen mit der Z-Verteilung. Aus diesem Grund wird bei den DATEN von Normalität ausgegangen.

ANOVA entspricht einer linearen Regression mit Dummy-Variablen und verwendet wie OLS Quadratsummen. Deshalb wird von RESIDUALS die Normalität angenommen.

Ich habe mehrere Jahre gebraucht, aber ich glaube, ich habe diese grundlegenden Fakten endlich begriffen. Warum entspricht der t-Test also einer ANOVA mit zwei Gruppen? Wie können sie gleichwertig sein, wenn sie nicht einmal dasselbe über die Daten annehmen?

Chris Beeley
quelle
15
Ein Punkt: T-Tests verwenden die T-Verteilung und nicht die Z-Verteilung
Jeromy Anglim
1
Auch wenn die Frage nicht richtig ist, ist sie sehr nützlich. Ich denke auch, dass das Erwähnen von "two tailed t-test" irgendwo die Fragen / Antworten vollständiger machen wird.
Gaurav Singhal

Antworten:

29

Der t-Test mit zwei Gruppen geht davon aus, dass jede Gruppe normal mit der gleichen Varianz verteilt ist (obwohl sich die Mittelwerte unter der alternativen Hypothese unterscheiden können). Dies entspricht einer Regression mit einer Dummy-Variablen, da sich durch die Regression der Mittelwert jeder Gruppe unterscheiden kann, nicht jedoch die Varianz. Daher haben die Residuen (gleich den Daten mit subtrahierten Gruppenmitteln) die gleiche Verteilung - das heißt, sie sind normalerweise mit dem Mittelwert Null verteilt.

Ein t-Test mit ungleichen Varianzen entspricht nicht einer Einweg-ANOVA.

Rob Hyndman
quelle
3
Ich kann ein Zitat nachschlagen, aber das ist leicht genug, um es empirisch zu testen. F aus einer ANOVA mit zwei Gruppen ist genau gleich t ^ 2 und die p-Werte sind genau gleich. Der einzige Grund, warum es bei ungleichen Abweichungen nicht gleichwertig wäre, ist, wenn Sie eine Korrektur anwenden. Ansonsten sind sie gleich.
Brett
3
F-Test ist die Verallgemeinerung von t-Test. Der t-Test dient zum Vergleich von 2 Behandlungen und der F-Test ist für mehrere Behandlungen. Die Herleitung ist in Casellas Statistical Design, Kapitel 3 und 4, enthalten. Wie Prof. Hyndman jedoch mit ungleichen Abweichungen feststellt, handelt es sich nicht mehr um einen T-Test. Es ist das Problem der Fischer Behren. Wir verwenden im Allgemeinen nicht die Fisher-Lösung, sondern den Welch-Test oder einen Bayes-Ansatz.
Suncoolsu
Ein T-Test mit zwei Stichproben und ungleichen Varianzen entspricht in der Tat einer Einweg-ANOVA mit zwei Gruppen. Vielleicht meinten Sie, dass ein t-Test mit einer Korrektur für ungleiche Varianzen (dh Welch) nicht dasselbe ist wie eine nicht korrigierte Einweg-ANOVA (obwohl warum sollten sie das sein)?
Brett
20

Der t-Test ist lediglich ein Sonderfall des F-Tests, bei dem nur zwei Gruppen verglichen werden. Das Ergebnis von beiden ist in Bezug auf den p-Wert genau dasselbe, und es gibt auch eine einfache Beziehung zwischen der F- und der t-Statistik. F = t ^ 2. Die beiden Tests sind algebraisch äquivalent und ihre Annahmen sind dieselben.

Tatsächlich erstrecken sich diese Äquivalenzen auf die gesamte Klasse von ANOVAs, t-Tests und linearen Regressionsmodellen. Der t-Test ist ein Sonderfall der ANOVA. ANOVA ist ein spezieller Regressionsfall. Alle diese Verfahren werden unter dem allgemeinen linearen Modell zusammengefasst und stimmen mit denselben Annahmen überein.

  1. Unabhängigkeit von Beobachtungen.
  2. Normalität der Residuen = Normalität in jeder Gruppe im Sonderfall.
  3. Gleiche Varianzen von Residuen = gleiche Varianzen über Gruppen in dem speziellen Fall.

Sie können sich das als Normalität in den Daten vorstellen, aber Sie überprüfen die Normalität in jeder Gruppe. Dies entspricht der Überprüfung der Normalität in den Residuen, wenn der einzige Prädiktor im Modell ein Indikator für die Gruppe ist. Ebenso bei gleichen Abweichungen.

Nebenbei bemerkt, hat R keine separaten Routinen für ANOVA. Die Anova-Funktionen in R sind nur Wrapper für die Funktion lm () - dieselbe Funktion, die auch für lineare Regressionsmodelle verwendet wird -, die etwas anders verpackt sind, um das zu liefern, was normalerweise in einer ANOVA-Zusammenfassung und nicht in einer Regressionszusammenfassung enthalten ist.

Brett
quelle
Würde mich interessieren, wie man ANOVA-Modelle mit lm für wiederholte Messungen anpasst.
AndyF
1
In diesem Artikel werden die Codierung kategorialer Variablen, die Äquivalenz von Regressions- und ANOVA-Modellen sowie die Regressionscodierung für wiederholte Kennzahlen beschrieben. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Hier ist das Zitat ... Wendorf, CA (2004). Primer bei multipler Regressionskodierung: Häufige Formen und der zusätzliche Fall wiederholter Kontraste. Grundlegendes zur Statistik 3, 47-57.
Brett
4
@AndyF Nicht lm(), wenn Sie nicht mit dem Paket nlmeoder zu gemischten Modellen wechseln lme4, aber es gibt eine praktische Möglichkeit, wiederholte Messungen durch entsprechende Angabe des ErrorBegriffs in zu verarbeiten aov(). Weitere Informationen finden Sie im Baron & Li-Tutorial, §6.9, j.mp/. c5ME4u
chl
@AndyF aov()baut auf der lm()Funktion auf, enthält jedoch zusätzliche Argumente, die als Sonderbegriffe bezeichnet werden Error.
chl
aov () ist einfach ein Wrapper für lm (). Hinter den Kulissen wird eine Kontrastcodierung vorgenommen und das Ergebnis im ANOVA-Stil verpackt. All dies wird von lm () modelliert. In dem Artikel, auf den ich oben verwiesen habe, erfahren Sie, wie Sie die Codierung für wiederholte Kontraste in Regressionsmodellen, einschließlich lm (), einrichten.
Brett
17

Ich stimme Robs Antwort voll und ganz zu, aber lassen Sie es mich anders ausdrücken (mit Wikipedia):

Annahmen ANOVA :

  • Unabhängigkeit von Fällen - Dies ist eine Annahme des Modells, die die statistische Analyse vereinfacht.
  • Normalität - Die Verteilungen der Residuen sind normal.
  • Gleichheit (oder "Homogenität") von Varianzen, Homoskedastizität genannt

Annahmen t-Test :

  • Jede der beiden verglichenen Populationen sollte einer Normalverteilung folgen ...
  • ... die beiden verglichenen Populationen sollten die gleiche Varianz haben ...
  • Die zur Durchführung des Tests verwendeten Daten sollten unabhängig von den beiden verglichenen Populationen entnommen werden.

Daher würde ich die Frage zurückweisen, da sie offensichtlich die gleichen Annahmen haben (obwohl in einer anderen Reihenfolge :-)).

Henrik
quelle
Siehe Kommentar zu Rob.
Alexis
@Alexis Ich bin mir nicht sicher, ob ich deine Ablehnung verstehe. Sorgfalt ausarbeiten.
Henrik
Die zweite Annahme des t- Tests ist nicht wahr. Die ursprüngliche Arbeit des Schülers hat dies angenommen, aber "ungleiche Varianzen" sind eine weit verbreitete Annahme für die spätere Behandlung des Tests.
Alexis
5

Ein offensichtlicher Punkt, den jeder übersehen hat: Mit ANOVA testen Sie die Null, dass der Mittelwert unabhängig von den Werten Ihrer erklärenden Variablen identisch ist. Mit einem T-Test können Sie auch den einseitigen Fall testen, dass der Mittelwert bei einem Wert Ihrer erklärenden Variablen spezifisch größer ist als bei dem anderen.

dsimcha
quelle
1
Wenn ich mich nicht irre, ist das KEIN Unterschied. Wenn Sie eine ANOVA mit zwei Gruppen durchführen, können Sie einen "einseitigen Test" durchführen, genau wie Sie es bei einem T-Test tun können. Ich habe "einseitigen Test" in Anführungszeichen gesetzt, weil es im "Test" eigentlich keinen Unterschied zwischen einem "einseitigen Test" und einem "zweiseitigen Test" gibt. Der einzige Unterschied besteht darin, wie Sie die statistische Signifikanz der p-Werte interpretieren. Die einseitigen und zweiseitigen "Tests" sind also genau die gleichen "Tests". Nur die korrekte Interpretation der Ergebnisse ist unterschiedlich.
Tripartio
-3

Ich werde es vorziehen, t-test zum Vergleichen von zwei Gruppen zu verwenden, und aus Gründen ANOVA für mehr als 2 Gruppen verwenden. Wichtiger Grund ist die Annahme gleicher Varianzen.

syed
quelle
5
Willkommen auf der Seite, @syed. Würde es Ihnen etwas ausmachen, Ihre Antwort zu erweitern? Auf welche "Gründe" beziehen Sie sich beispielsweise? Beachten Sie, dass sowohl der t-Test als auch die ANOVA gleiche Varianzen annehmen.
gung - Reinstate Monica