Die Wikipedia-Seite zu ANOVA enthält drei Annahmen :
- Unabhängigkeit von Fällen - Dies ist eine Annahme des Modells, die die statistische Analyse vereinfacht.
- Normalität - Die Verteilungen der Residuen sind normal.
- Gleichheit (oder "Homogenität") von Varianzen, Homoskedastizität genannt ...
Interessant ist hier die zweite Annahme. Mehrere Quellen führen die Annahme unterschiedlich auf. Einige sagen Normalität der Rohdaten, andere behaupten Residuen.
Einige Fragen tauchen auf:
- Sind Normalität und Normalverteilung von Residuen dieselbe Person (basierend auf dem Wikipedia-Eintrag würde ich behaupten, dass Normalität eine Eigenschaft ist und keine direkten Residuen betrifft (kann aber eine Eigenschaft von Residuen sein (tief verschachtelter Text in Klammern, ausgeflippt))?
- Wenn nicht, welche Annahme sollte gelten? Ein? Beide?
- Wenn die Annahme normalverteilter Residuen richtig ist, machen wir einen schwerwiegenden Fehler, indem wir nur das Histogramm der Rohwerte auf Normalität prüfen?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
quelle
quelle
Antworten:
Nehmen wir an, dies ist ein Modell mit festen Effekten . (Der Rat ändert sich für Modelle mit zufälligen Effekten nicht wirklich, er wird nur etwas komplizierter.)
Nein, Normalität und Normalverteilung der Residuen sind nicht gleich . Angenommen, Sie haben den Ertrag einer Kultur mit und ohne Düngerauftrag gemessen. In Parzellen ohne Dünger lag der Ertrag im Bereich von 70 bis 130. In zwei Parzellen mit Dünger lag der Ertrag im Bereich von 470 bis 530. Die Verteilung der Ergebnisse ist stark ungewöhnlich: Sie wird an zwei Stellen in Bezug auf den Düngerauftrag zusammengefasst. Angenommen, die durchschnittlichen Ausbeuten betragen 100 bzw. 500. Dann reichen alle Residuen von -30 bis +30. Sie können normal verteilt sein (oder auch nicht), aber dies ist offensichtlich eine völlig andere Verteilung.
Die Verteilung der Residuen zählt , weil sie den zufälligen Teil des Modells reflektieren. Beachten Sie auch, dass die p-Werte aus F- (oder t-) Statistiken berechnet werden und diese von Residuen abhängen, nicht von den ursprünglichen Werten.
Wenn es signifikante und wichtige Effekte in den Daten (wie in diesem Beispiel), dann Sie vielleicht einen „Grab“ Fehler zu machen sein . Sie könnten glücklicherweise die richtige Entscheidung treffen: Wenn Sie sich die Rohdaten ansehen, werden Sie eine Mischung von Verteilungen sehen, und dies kann normal aussehen (oder auch nicht). Der Punkt ist, dass das, wonach Sie suchen, nicht relevant ist.
ANOVA-Residuen müssen nicht annähernd normal sein, um zum Modell zu passen. Die Nahezu-Normalität der Residuen ist jedoch wesentlich , damit die aus der F-Verteilung berechneten p-Werte aussagekräftig sind.
quelle
Die klassische Standard-Einweg-ANOVA kann als Erweiterung des klassischen "2-Stichproben-T-Tests" zu einem "n-Stichproben-T-Test" angesehen werden. Dies zeigt der Vergleich einer Einweg-ANOVA mit nur zwei Gruppen mit dem klassischen 2-Stichproben-T-Test.
Ich denke, Sie werden verwirrt, wenn (unter den Annahmen des Modells) die Residuen und die Rohdaten BEIDE normalverteilt sind. Die Rohdaten bestehen jedoch aus Normalverteilungen mit unterschiedlichen Mitteln (es sei denn, alle Effekte sind exakt gleich), aber der gleichen Varianz. Die Residuen haben dagegen die gleiche Normalverteilung . Dies ergibt sich aus der dritten Annahme der Homoskedastizität.
quelle
quelle