ANOVA-Annahme Normalität / Normalverteilung von Residuen

52

Die Wikipedia-Seite zu ANOVA enthält drei Annahmen :

  • Unabhängigkeit von Fällen - Dies ist eine Annahme des Modells, die die statistische Analyse vereinfacht.
  • Normalität - Die Verteilungen der Residuen sind normal.
  • Gleichheit (oder "Homogenität") von Varianzen, Homoskedastizität genannt ...

Interessant ist hier die zweite Annahme. Mehrere Quellen führen die Annahme unterschiedlich auf. Einige sagen Normalität der Rohdaten, andere behaupten Residuen.

Einige Fragen tauchen auf:

  • Sind Normalität und Normalverteilung von Residuen dieselbe Person (basierend auf dem Wikipedia-Eintrag würde ich behaupten, dass Normalität eine Eigenschaft ist und keine direkten Residuen betrifft (kann aber eine Eigenschaft von Residuen sein (tief verschachtelter Text in Klammern, ausgeflippt))?
  • Wenn nicht, welche Annahme sollte gelten? Ein? Beide?
  • Wenn die Annahme normalverteilter Residuen richtig ist, machen wir einen schwerwiegenden Fehler, indem wir nur das Histogramm der Rohwerte auf Normalität prüfen?
Roman Luštrik
quelle
Sie können fast alles ignorieren, was diese Quellen aussagen, wenn sie behaupten, dass die Rohdaten normal verteilt werden müssen. Und wer sagte, "wir" überprüften die Rohwerte sowieso nur mit Histogrammen. Bist du in einer dieser Six Sigma Klassen ???
DW am
1
@Andy W: Ich habe gerade einen Link zu dem scheinbar relevanten Abschnitt des Wikipedia-Artikels über ANOVA hinzugefügt.
am
@DWin: blog.markanthonylawson.com/?p=296 (sorry, völlig off-topic , aber konnte nicht widerstehen )
onestop
@onestop danke. Ich habe den Link nur angefordert, weil ich faul bin und selbst keine ANOVA auf Wikipedia nachschlagen wollte, nicht, weil es für die Frage wesentlich ist.
Andy W
Verwandte Frage hier: Was-wäre-wenn-Residuen-normalverteilt sind,-aber-y-nicht .
gung - Wiedereinsetzung von Monica

Antworten:

35

Nehmen wir an, dies ist ein Modell mit festen Effekten . (Der Rat ändert sich für Modelle mit zufälligen Effekten nicht wirklich, er wird nur etwas komplizierter.)

  1. Nein, Normalität und Normalverteilung der Residuen sind nicht gleich . Angenommen, Sie haben den Ertrag einer Kultur mit und ohne Düngerauftrag gemessen. In Parzellen ohne Dünger lag der Ertrag im Bereich von 70 bis 130. In zwei Parzellen mit Dünger lag der Ertrag im Bereich von 470 bis 530. Die Verteilung der Ergebnisse ist stark ungewöhnlich: Sie wird an zwei Stellen in Bezug auf den Düngerauftrag zusammengefasst. Angenommen, die durchschnittlichen Ausbeuten betragen 100 bzw. 500. Dann reichen alle Residuen von -30 bis +30. Sie können normal verteilt sein (oder auch nicht), aber dies ist offensichtlich eine völlig andere Verteilung.

  2. Die Verteilung der Residuen zählt , weil sie den zufälligen Teil des Modells reflektieren. Beachten Sie auch, dass die p-Werte aus F- (oder t-) Statistiken berechnet werden und diese von Residuen abhängen, nicht von den ursprünglichen Werten.

  3. Wenn es signifikante und wichtige Effekte in den Daten (wie in diesem Beispiel), dann Sie vielleicht einen „Grab“ Fehler zu machen sein . Sie könnten glücklicherweise die richtige Entscheidung treffen: Wenn Sie sich die Rohdaten ansehen, werden Sie eine Mischung von Verteilungen sehen, und dies kann normal aussehen (oder auch nicht). Der Punkt ist, dass das, wonach Sie suchen, nicht relevant ist.

ANOVA-Residuen müssen nicht annähernd normal sein, um zum Modell zu passen. Die Nahezu-Normalität der Residuen ist jedoch wesentlich , damit die aus der F-Verteilung berechneten p-Werte aussagekräftig sind.

whuber
quelle
6
Ich denke, es gibt wichtige Punkte hinzuzufügen: In einer ANOVA entspricht die Normalität innerhalb jeder Gruppe (nicht insgesamt) der Normalität der Residuen.
Aniko
2
@Aniko Könnten Sie bitte erläutern, was Sie in Ihrem Kommentar unter "Äquivalent" verstehen? Es ist fast tautologisch, dass die Normalität innerhalb einer Gruppe mit der Normalität der Residuen dieser Gruppe identisch ist, aber es ist falsch, dass die Normalität innerhalb jeder Gruppe die Normalität der Residuen impliziert (oder durch sie impliziert wird).
Whuber
7
Ich meinte wirklich den tautologischen Sinn: Wenn die Gruppen normal sind, dann sind die Residuen normal. Das Gegenteil ist nur der Fall, wenn Homoskedaskität hinzugefügt wird (wie in ANOVA). Ich möchte nicht befürworten, die Gruppen anstelle der Residuen zu überprüfen, aber ich denke, dies ist der Grund für die unterschiedliche Formulierung der Annahmen.
Aniko
2
Ich habe festgestellt, dass Menschen, die eine ANOVA durchführen, normalerweise an der Berechnung von p-Werten interessiert zu sein scheinen. Daher ist die Normalität der Residuen für sie wichtig. Gibt es allgemeine Gründe, ein ANOVA-Modell anzupassen, wenn wir nicht daran interessiert sind, p-Werte aus der F-Verteilung zu berechnen? Entschuldigung, wenn diese Frage für einen Kommentar zu weit gefasst ist.
user1205901
3
@ user1205901 Das ist ein sehr guter Punkt. Zwei häufige Anwendungen von ANOVA, die sich nicht auf den F-Test stützen, sind (1) eine bequeme Methode zum Abrufen von Effektschätzungen und (2) ein wesentlicher Bestandteil einer Komponente der Varianzberechnung.
whuber
8

Die klassische Standard-Einweg-ANOVA kann als Erweiterung des klassischen "2-Stichproben-T-Tests" zu einem "n-Stichproben-T-Test" angesehen werden. Dies zeigt der Vergleich einer Einweg-ANOVA mit nur zwei Gruppen mit dem klassischen 2-Stichproben-T-Test.

Ich denke, Sie werden verwirrt, wenn (unter den Annahmen des Modells) die Residuen und die Rohdaten BEIDE normalverteilt sind. Die Rohdaten bestehen jedoch aus Normalverteilungen mit unterschiedlichen Mitteln (es sei denn, alle Effekte sind exakt gleich), aber der gleichen Varianz. Die Residuen haben dagegen die gleiche Normalverteilung . Dies ergibt sich aus der dritten Annahme der Homoskedastizität.

Yijμjσ2Yij=μj+σϵijϵij

ϵij

Yij

Wahrscheinlichkeitslogik
quelle
1
+1 für den Hinweis (im letzten Absatz) auf die Annahme der Homoskedastizität.
Whuber
Bedeutet es , dass , wenn wir sagen wir mal n abhängige Gruppen vergleichen wir ihre Rückstände müssen gesondert überprüfen (was in n Gruppen von Rest-)?
stan
5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)MjY=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

H0Myi(j)MjMMj

caracal
quelle
2
SSχ2Mj=MjyijMjMjM
@onestop Bearbeitet, um Ihre Klarstellung widerzuspiegeln, danke!
caracal