Warum spielen die ANOVA-Annahmen (Varianzgleichheit, Normalität der Residuen) eine Rolle?

15

Bei der Durchführung einer ANOVA wird uns mitgeteilt, dass bestimmte Annahmen des Tests vorliegen müssen, damit er auf die Daten anwendbar ist. Ich habe nie verstanden, warum die folgenden Annahmen erforderlich waren, damit der Test funktioniert:

  1. Die Varianz Ihrer abhängigen Variablen (Residuen) sollte in jeder Zelle des Designs gleich sein

  2. Ihre abhängige Variable (Residuen) sollte für jede Zelle des Designs ungefähr normalverteilt sein

Ich verstehe, dass es eine gewisse Grauzone gibt, wenn diese Annahmen erfüllt werden müssen, aber aus Gründen der Argumentation, wenn diese Annahmen in einem bestimmten Datensatz überhaupt nicht erfüllt würden, was wäre das Problem bei der Verwendung einer ANOVA ?

PaperRockBazooka
quelle
Was ist das Ziel Ihres Studiums?
Subhash C. Davar

Antworten:

8

Die Annahmen spielen insofern eine Rolle, als sie die Eigenschaften der von Ihnen verwendeten Hypothesentests (und Intervalle) beeinflussen, deren Verteilungseigenschaften unter dem Nullwert auf der Grundlage dieser Annahmen berechnet werden.

Insbesondere bei Hypothesentests könnte es uns interessieren, wie weit das wahre Signifikanzniveau von dem entfernt ist, was wir wollen, und ob die Macht gegen Alternativen von Interesse gut ist.

In Bezug auf die Annahmen fragen Sie nach:

1. Varianzgleichheit

Die Varianz Ihrer abhängigen Variablen (Residuen) sollte in jeder Zelle des Designs gleich sein

Dies kann sich sicherlich auf das Signifikanzniveau auswirken, zumindest wenn die Stichprobengrößen ungleich sind.

(Bearbeiten :) Eine ANOVA-F-Statistik ist das Verhältnis zweier Varianzschätzungen (das Aufteilen und Vergleichen von Varianzen nennt man Varianzanalyse). Der Nenner ist eine Schätzung der angeblich für alle Zellen gemeinsamen Fehlervarianz (berechnet aus Residuen), während der Zähler auf der Grundlage der Variation des Gruppenmittels zwei Komponenten aufweist, eine aus der Variation des Populationsmittels und eine aufgrund der Fehlervarianz. Wenn die Null wahr ist, sind die beiden Varianzen, die geschätzt werden, gleich (zwei Schätzungen der gemeinsamen Fehlervarianz); Dieser gemeinsame, aber unbekannte Wert wird aufgehoben (weil wir ein Verhältnis genommen haben), wodurch eine F-Statistik übrig bleibt, die nur von der Verteilung der Fehler abhängt (die unter den Annahmen, die wir zeigen können, eine F-Verteilung hat. (Ähnliche Kommentare gelten für die t- Test, den ich zur Veranschaulichung verwendet habe.)

[Einige dieser Informationen sind in meiner Antwort hier etwas detaillierter angegeben. ]

Allerdings sind hier die beiden Einwohner in den beiden unterschiedlich großen Stichproben. Betrachten Sie den Nenner (der F-Statistik in ANOVA und der T-Statistik in einem T-Test) - er setzt sich aus zwei verschiedenen Varianzschätzungen zusammen, nicht einer, sodass er nicht die "richtige" Verteilung hat (ein skaliertes Chi) -Quadrat für das F und seine Quadratwurzel im Fall von at (sowohl die Form als auch die Skala sind Probleme).

Infolgedessen hat die F-Statistik oder die t-Statistik nicht mehr die F- oder t-Verteilung, sondern die Art und Weise, in der sie beeinflusst wird, hängt davon ab, ob die große oder die kleinere Stichprobe aus der Grundgesamtheit mit gezogen wurde die größere Varianz. Dies wirkt sich wiederum auf die Verteilung der p-Werte aus.

Unter der Null (dh wenn die Populationsmittelwerte gleich sind) sollte die Verteilung der p-Werte gleichmäßig verteilt sein. Wenn jedoch die Varianzen und Stichprobengrößen ungleich sind, die Mittelwerte jedoch gleich sind (damit wir die Null nicht ablehnen möchten), sind die p-Werte nicht gleichmäßig verteilt. Ich habe eine kleine Simulation gemacht, um Ihnen zu zeigen, was passiert. In diesem Fall habe ich nur 2 Gruppen verwendet, sodass ANOVA einem t-Test mit zwei Stichproben und der Annahme gleicher Varianz entspricht. Also habe ich Samples aus zwei Normalverteilungen simuliert, eine mit einer zehnmal so großen Standardabweichung wie die andere, aber mit dem gleichen Mittelwert.

Für die Darstellung auf der linken Seite war die größere ( Populations- ) Standardabweichung für n = 5 und die kleinere Standardabweichung für n = 30. Für die Darstellung auf der rechten Seite war die größere Standardabweichung bei n = 30 und die kleinere bei n = 5. Ich habe jeweils 10000-mal simuliert und jedes Mal den p-Wert gefunden. In jedem Fall möchten Sie, dass das Histogramm vollständig flach (rechteckig) ist, da dies bedeutet, dass alle Tests, die auf einem Signifikanzniveau tatsächlich die Fehlerrate Typ I erhalten. Insbesondere ist es wichtig, dass die am weitesten links liegenden Teile des Histogramms in der Nähe der grauen Linie bleiben:α

Histogramme der p-Werte für simulierte Proben

Wie wir sehen, sind die p-Werte auf der linken Seite (größere Varianz in der kleineren Stichprobe) tendenziell sehr klein - wir würden die Nullhypothese sehr oft ablehnen (fast die Hälfte der Zeit in diesem Beispiel), obwohl die Null wahr ist . Das heißt, unsere Signifikanzniveaus sind viel größer, als wir gefordert haben. In der Darstellung auf der rechten Seite sehen wir, dass die p-Werte größtenteils groß sind (und unser Signifikanzniveau daher viel kleiner ist als von uns gewünscht) - tatsächlich haben wir nicht ein einziges Mal in zehntausend Simulationen das 5% -Niveau (das kleinste) verworfen p-Wert hier war 0,055). [Das hört sich vielleicht nicht so schlecht an, bis wir uns daran erinnern, dass wir auch sehr wenig Energie haben werden , um mit unserer sehr niedrigen Signifikanzstufe übereinzustimmen.]

Das ist eine ziemliche Konsequenz. Aus diesem Grund ist es eine gute Idee, einen Welch-Satterthwaite-T-Test oder eine ANOVA zu verwenden, wenn wir keinen triftigen Grund für die Annahme haben, dass die Varianzen nahezu gleich sind - im Vergleich dazu ist sie in diesen Situationen kaum betroffen (I simulierte auch diesen Fall; die beiden Verteilungen der simulierten p-Werte - die ich hier nicht gezeigt habe - kamen ziemlich flach heraus).

2. Bedingte Verteilung der Antwort (DV)

Ihre abhängige Variable (Residuen) sollte für jede Zelle des Designs ungefähr normalverteilt sein

Dies ist etwas weniger direkt kritisch - für mäßige Abweichungen von der Normalität wird das Signifikanzniveau in größeren Stichproben so wenig beeinflusst (obwohl die Leistung sein kann!).

nn

Histogramme von p-Werten, wenn H0 wahr ist, die Verteilungen in jeder Gruppe jedoch exponentiell sind

Wir sehen, dass es bei n = 5 wesentlich zu wenige kleine p-Werte gibt (das Signifikanzniveau für einen 5% -Test wäre ungefähr halb so hoch wie es sein sollte), aber bei n = 50 ist das Problem reduziert - für einen 5% -Test Test in diesem Fall ist das wahre Signifikanzniveau etwa 4,5%.

Wir könnten also versucht sein zu sagen: "Nun, das ist in Ordnung, wenn n groß genug ist, um das Signifikanzniveau ziemlich nahe zu bringen." Insbesondere ist bekannt, dass die asymptotische relative Effizienz des t-Tests im Vergleich zu weit verbreiteten Alternativen bis 0 gehen kann. Dies bedeutet, dass eine bessere Testauswahl dieselbe Leistung mit einem verschwindend kleinen Bruchteil der Probengröße erzielen kann, die dafür erforderlich ist der t-test. Sie brauchen nichts Außergewöhnliches, um mehr als doppelt so viele Daten zu benötigen, um mit dem t die gleiche Leistung zu erzielen wie mit einem alternativen Test - einigermaßen schwerer als normale Schwänze in der Populationsverteilung und mäßig große Samples können ausreichen, um dies zu tun.

(Andere Verteilungsoptionen können dazu führen, dass das Signifikanzniveau höher als erwartet oder wesentlich niedriger ist, als wir hier gesehen haben.)

Glen_b - Setzen Sie Monica wieder ein
quelle
Vielen Dank an Glen für die ausführliche Antwort. Ich bin gespannt, warum die von Ihnen beschriebenen Fehler auftreten würden, wenn die Annahmen in Bezug auf die Varianzgleichheit nicht erfüllt würden. Entscheide ich mich korrekt für Folgendes? Eine größere Varianz ist (ebenso wie die Anzahl der Datenpunkte im Allgemeinen klein ist, dh n = 5), dass die in der kleineren Stichprobe beobachtete größere Varianz als repräsentativ für die Varianz auf Populationsniveau berechnet wird.
PaperRockBazooka
(Teil 2) Im Wesentlichen handelt es sich um einen unfairen Vergleich zwischen einer repräsentativen Stichprobe und einer unterrepräsentativen Stichprobe (relativ gesehen), der aufgrund der Verarbeitung der ANOVA zu einem Typ-1-Fehler führen kann.
PaperRockBazooka
@Paper Ich glaube nicht, dass das hier das Problem ist. Es ist nicht die Repräsentativität der Stichprobenvarianz in der kleineren Stichprobe (z. B. wenn beide Stichproben gleich klein wären, hätten Sie das doppelte Problem mit der Repräsentativität, aber dieses Problem würde fehlen). Ich habe meiner Antwort einige Absätze hinzugefügt, um zu erläutern, wie das Problem im Detail auftritt.
Glen_b
4

Kurz gesagt, ANOVA addiert , quadriert und mittelt Residuen . Residuen geben an, wie gut Ihr Modell zu den Daten passt. In diesem Beispiel habe ich den PlantGrowthDatensatz verwendet in R:

Ergebnisse eines Versuchs zum Vergleich der Ausbeuten (gemessen anhand des Trockengewichts der Pflanzen), die unter einer Kontrolle und unter zwei verschiedenen Behandlungsbedingungen erhalten wurden.

Diese erste Grafik zeigt den Mittelwert für alle drei Behandlungsstufen:

Bildbeschreibung hier eingeben

Die roten Linien sind die Residuen . Wenn Sie nun die Länge dieser einzelnen Linien quadrieren und addieren, erhalten Sie einen Wert, der angibt, wie gut der Mittelwert (unser Modell) die Daten beschreibt. Eine kleine Zahl gibt an, dass der Mittelwert Ihre Datenpunkte gut beschreibt, eine größere Zahl gibt an, dass der Mittelwert Ihre Daten nicht so gut beschreibt. Diese Zahl wird die Summe der Quadrate genannt :

SStotal=(xix¯grand)2xix¯grand den Gesamtmittelwert für die Datenmenge.

Nun machen Sie dasselbe mit den Residuen in Ihrer Behandlung ( Residual Sums of Squares , auch bekannt als das Rauschen in den Behandlungsstufen):

Bildbeschreibung hier eingeben

Und die Formel:

SSresiduals=(xikx¯k)2xikikx¯k der Mittelwert über die Behandlungsstufen .

Zuletzt müssen wir das Signal in den Daten bestimmen , das als Modellsummen der Quadrate bekannt ist und das später verwendet wird, um zu berechnen, ob sich die Behandlungsmittel von den Mittelwerten unterscheiden:

Bildbeschreibung hier eingeben

Und die Formel:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

Der Nachteil der Quadratsummen besteht nun darin, dass sie mit zunehmender Stichprobengröße größer werden. Um diese Quadratsummen im Verhältnis zur Anzahl der Beobachtungen im Datensatz auszudrücken, dividieren Sie sie durch ihre Freiheitsgrade und wandeln sie in Varianzen um. Nach dem Quadrieren und Hinzufügen Ihrer Datenpunkte werden diese nun mit ihren Freiheitsgraden gemittelt :

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

Dies ergibt das mittlere Modellquadrat und das mittlere Restquadrat (beide sind Varianzen) oder das Signal-Rausch-Verhältnis, das als F-Wert bezeichnet wird:

MSmodel=SSmodeldfmodel

MSresidual=SSresidualdfresidual

F=MSmodelMSresidual

Der F-Wert beschreibt das Signal-Rausch-Verhältnis oder ob sich die Behandlungsmittel vom Mittelwert unterscheiden. Der F-Wert wird nun verwendet, um p-Werte zu berechnen, und diese entscheiden, ob sich mindestens eines der Behandlungsmittel signifikant vom Mittelwert unterscheidet oder nicht.

Nun hoffe ich, dass Sie sehen können, dass die Annahmen auf Berechnungen mit Residuen basieren und warum sie wichtig sind. Da wir das Hinzufügen , quadriert und Mittelungs Residuen, sollten wir sicherstellen , dass , bevor wir dies tun, die Daten in diesen Behandlungsgruppen verhält sich ähnlich , oder auch der F-Wert kann von diesem F-Wert gezogen bis zu einem gewissen Grad und Schlüsse vorgespannt sein kann nicht gültig sein.

Bearbeiten: Ich habe zwei Absätze hinzugefügt, um die Fragen 2 und 1 des OP genauer zu behandeln .

Normalitätsannahme : Der Mittelwert (oder Erwartungswert) wird in der Statistik häufig zur Beschreibung des Verteilungszentrums verwendet, ist jedoch nicht sehr robust und kann leicht von Ausreißern beeinflusst werden. Der Mittelwert ist das einfachste Modell, das wir an die Daten anpassen können. Da wir in ANOVA den Mittelwert zur Berechnung der Residuen und der Quadratsummen verwenden (siehe Formeln oben), sollten die Daten grob normalverteilt sein (Normalitätsannahme). Wenn dies nicht der Fall ist, ist der Mittelwert möglicherweise nicht das geeignete Modell für die Daten, da dadurch keine korrekte Position des Zentrums der Probenverteilung erhalten wird. Stattdessen könnte einmal der Median verwendet werden (siehe nicht parametrische Testverfahren).

Homogenität der Varianzannahme : Bei der späteren Berechnung der mittleren Quadrate (Modell und Residuum) werden die einzelnen Quadratsummen aus den Behandlungsebenen zusammengefasst und gemittelt (siehe obige Formeln). Durch Bündelung und Mittelung verlieren wir die Informationen über die einzelnen Abweichungen der Behandlungsstufen und ihren Beitrag zu den mittleren Quadraten. Daher sollten wir ungefähr die gleiche Varianz unter allen Behandlungsstufen haben, damit der Beitrag zu den mittleren Quadraten ähnlich ist. Wenn die Abweichungen zwischen diesen Behandlungsstufen unterschiedlich wären, würden die resultierenden mittleren Quadrate und der F-Wert verzerrt sein und die Berechnung der p-Werte beeinflussen, wodurch die aus diesen p-Werten gezogenen Schlussfolgerungen in Frage gestellt werden (siehe auch @whubers Kommentar und @ Glen_b Antwort).

So sehe ich es für mich. Es mag nicht 100% genau sein (ich bin kein Statistiker), aber es hilft mir zu verstehen, warum es wichtig ist, die Annahmen für ANOVA zu erfüllen.

Stefan
quelle
Ihr Konto ist gut, aber Sie haben die Frage nicht mehr beantwortet! DasFDie Statistik ist eine nützliche Beschreibung der ANOVA, egal was passiert. Die Homoskedastizität und Normalität Annahmen sind erforderlich, damit dieF Statistik wird tatsächlich eine haben FVerhältnisverteilung; Darüber hinaus verursachen relativ kleine Verstöße gegen eine der beiden Annahmen tendenziell dieF Verteilung der Statistik soll spürbar von der FVerhältnisverteilung, die alle daraus berechneten p-Werte in Frage stellt. Aus diesem Grund konzentrieren sich andere Antworten, z. B. von @Glen_b, auf diese Verteilung.
Whuber
@Wenn ich Ihren Kommentar schätze, hilft es mir zu lernen. Ich werde das einwirken lassen und einige Zeit damit verbringen müssen, mir das anzuschauenF Verhältnis gegen das Fstatistische Verteilungen und wie sie die Berechnung der p-Werte beeinflussen.
Stefan
Danke Stefan. Ich möchte sehen, ob ich dich richtig verstehe. ANOVA erstellt im Wesentlichen einen Mittelwert aus allen Datenpunkten der Menge und vergleicht, inwieweit sich jede Gruppe von diesem Mittelwert unterscheidet, um zu verstehen, ob es sich um einen statistisch signifikanten Unterschied handelt. Wenn die besprochenen Annahmen nicht erfüllt sind, spiegelt der Mittelwert die zu vergleichenden Gruppen nicht sehr
wider
@PaperRockBazooka In einer ANOVA vergleichen Sie Signal mit Rauschen. Wenn Sie kein Signal erkennen können, dh die Auswirkung Ihrer Behandlung auf das Ergebnis, können Sie auch den Mittelwert als Modell für die Beschreibung der Daten verwenden. Wir verwenden die Differenz der Datenpunkte zum Mittelwert (SStÖteinl) zeigt die Differenz der Daten auf das Behandlungsmittel (SSresichdueinl), und die Differenz der Behandlungsmittel zum Mittelwert (SSmÖdel), um das Signal-Rausch-Verhältnis zu bestimmen. Versuchen Sie, eine einfache Einweg-ANOVA von Hand zu berechnen. Das hat mir geholfen, es besser zu verstehen.
Stefan
0

ANOVA ist nur eine Methode, sie berechnet den F-Test aus Ihren Proben und vergleicht ihn mit der F-Verteilung. Sie benötigen einige Annahmen, um zu entscheiden, was Sie vergleichen möchten, und um die p-Werte zu berechnen.

Wenn Sie diese Annahmen nicht erfüllen, könnten Sie andere Dinge berechnen, aber es wird keine ANOVA sein.

Die nützlichste Distribution ist die normale (wegen des CLT), deshalb wird sie am häufigsten verwendet. Wenn Ihre Daten nicht normal verteilt sind, müssen Sie zumindest wissen, wie sie verteilt sind, um etwas zu berechnen.

Homoskedastizität ist auch in der Regressionsanalyse eine weit verbreitete Annahme, sie erleichtert lediglich die Sache. Wir brauchen zunächst einige Annahmen.

Wenn Sie nicht homoskedastisch sind, können Sie versuchen, Ihre Daten zu transformieren, um dies zu erreichen.

Es ist bekannt, dass der ANOVA F-Test im Sinne der Minimierung von falsch-negativen Fehlern bei einer festen Rate von falsch-positiven Fehlern nahezu optimal ist

Skan
quelle
"ANOVA" bezieht sich auf den Prozess der Zerlegung von Quadratsummen in interpretierbare Komponenten. Unabhängig von den Verteilungsannahmen ist eine ANOVA eine ANOVA.
Whuber