Wie teste ich die Normalität in einer 2x2 ANOVA?

8

Studiendesign: Ich habe den Teilnehmern einige Informationen über den Anstieg des Meeresspiegels gezeigt und die Informationen auf unterschiedliche Weise fokussiert, sowohl in Bezug auf die Zeitskala als auch auf das Ausmaß des potenziellen Anstiegs. Somit hatte ich ein 2 (Zeit: 2050 oder 2100) mal 2 (Größe: Mittel oder Hoch) Design. Es gab auch zwei Kontrollgruppen, die keine Informationen erhielten und nur die Fragen für meine DVs beantworteten.

Fragen: Ich habe immer nach Normalität in Zellen gesucht - für den 2x2-Teil dieses Designs würde es bedeuten, nach Normalität in 4 Gruppen zu suchen. Das Lesen einiger Diskussionen hier hat mich jedoch dazu gebracht, meine Methoden zu überdenken.

Zuerst habe ich gelesen, dass ich die Normalität der Residuen betrachten sollte. Wie kann ich die Normalität von Residuen überprüfen (in SPSS oder anderswo)? Muss ich dies für jede der 4 Gruppen tun (6 einschließlich der Kontrollen)?

Ich habe auch gelesen, dass Normalität innerhalb von Gruppen Normalität der Residuen impliziert. Ist das wahr? (Literaturhinweise?) Bedeutet dies wiederum, jede der 4 Zellen einzeln zu betrachten?

Kurz gesagt, welche Schritte würden Sie unternehmen, um festzustellen, ob Ihre (2x2) Daten nicht gegen Normalitätsannahmen verstoßen?

Referenzen werden immer geschätzt, auch wenn sie mich nur in die richtige Richtung weisen.

Lee
quelle

Antworten:

6

Die meisten Statistikpakete bieten Möglichkeiten zum Speichern von Residuen aus Ihrem Modell. Mit GLM - UNIVARIATEin SPSS können Sie Residuen speichern. Dadurch wird Ihrer Datendatei eine Variable hinzugefügt, die den Rest für jede Beobachtung darstellt.

Sobald Sie Ihre Residuen haben, können Sie sie untersuchen, um festzustellen, ob sie normal verteilt, homoskedastisch usw. sind. Sie könnten beispielsweise einen formalen Normalitätstest für Ihre Residuenvariable verwenden oder die Residuen geeigneter darstellen, um festzustellen, ob größere Abweichungen von der Normalität vorliegen. Wenn Sie die Homoskedastizität untersuchen möchten, können Sie eine Darstellung erhalten, in der die Residuen nach Gruppen betrachtet werden.

Für eine faktorielle ANOVA zwischen Subjekten, bei der die Homogenität der Varianz gilt, bedeutet Normalität innerhalb der Zellen die Normalität der Residuen, da Ihr Modell in der ANOVA die Gruppenmittelwerte vorhersagen soll. Somit ist der Rest nur die Differenz zwischen Gruppenmitteln und beobachteten Daten.

Antwort auf Kommentare unten:

  • Residuen werden relativ zu Ihren Modellvorhersagen definiert. In diesem Fall sind Ihre Modellvorhersagen Ihre Zellenmittel. Es ist eine allgemeinere Art, über das Testen von Annahmen nachzudenken, wenn Sie sich auf das Zeichnen der Residuen konzentrieren, anstatt einzelne Zellmittelwerte zu zeichnen, selbst wenn sie in diesem speziellen Fall im Grunde gleich sind. Wenn Sie beispielsweise eine Kovariate (ANCOVA) hinzufügen, sind Residuen besser zu untersuchen als Verteilungen innerhalb von Zellen.
  • Zur Prüfung der Normalität geben standardisierte und nicht standardisierte Residuen die gleiche Antwort. Standardisierte Residuen können nützlich sein, wenn Sie versuchen, Daten zu identifizieren, die von den Daten schlecht modelliert werden (dh ein Ausreißer).
  • Homogenität von Varianz und Homoskedastizität bedeuten meines Wissens dasselbe. Wiederum ist es üblich, diese Annahme zu untersuchen, indem die Varianzen zwischen Gruppen / Zellen verglichen werden. In Ihrem Fall erhalten Sie dieselben Werte, unabhängig davon, ob Sie die Varianz der Residuen für jede Zelle oder basierend auf den Rohdaten in jeder Zelle berechnen. Sie können jedoch auch Residuen auf der y-Achse und vorhergesagte Werte auf der x-Achse zeichnen. Dies ist ein allgemeinerer Ansatz, da er auch auf andere Situationen anwendbar ist, z. B. wenn Sie Kovariaten hinzufügen oder mehrere Regressionen durchführen.
  • Ein Punkt wurde darunter angesprochen, dass bei Heteroskedastizität (dh innerhalb der Zellvarianz variiert zwischen Zellen in der Population) und normalverteilten Residuen innerhalb von Zellen die resultierende Verteilung aller Residuen nicht normal wäre. Das Ergebnis wäre eine Mischungsverteilung von Variablen mit einem Mittelwert von Null und unterschiedlichen Varianzen mit Anteilen relativ zu den Zellgrößen. Die resultierende Verteilung hat keinen Nullversatz, würde aber vermutlich eine gewisse Kurtosis aufweisen. Wenn Sie Residuen durch die entsprechende Standardabweichung innerhalb der Zelle dividieren, können Sie die Heteroskedastizität des Effekts entfernen. Das Auftragen der resultierenden Residuen würde einen Gesamttest darüber liefern, ob Residuen unabhängig von jeglicher Heteroskedastizität normal verteilt sind.
Jeromy Anglim
quelle
Ah ja, ich sehe, wie ich sie retten kann. Ich gehe davon aus, dass das, was Sie sagen, die Residuen nach Gruppe speichert - das heißt, die Unterschiede der Stichprobenwerte vom Zellenmittelwert, nicht vom Mittelwert. Sollte ich die standardisierten oder nicht standardisierten Residuen untersuchen? Warum sollte man Residuen untersuchen, wenn dies der Untersuchung der Normalität innerhalb der Zellen entspricht? Das ist sicherlich einfacher. Und schließlich erwähnen Sie Homoskedastizität. Ich überprüfe im Allgemeinen die Homogenität der Varianz zwischen den Zellen. Ist dies etwas, das möglicherweise auch eine Untersuchung der Residuen erfordert?
Lee
@ Lee Okay. Ich habe meine Antwort bearbeitet, um auf Ihre Kommentare zu antworten.
Jeromy Anglim
+1, hier gibt es wirklich viele gute Infos. Ein Hinweis: Ich habe Probleme beim Analysieren von Teilen Ihres dritten Aufzählungspunkts. Einige Bearbeitungen können hilfreich sein.
Gung - Reinstate Monica
@gung Danke für das Feedback. Ich habe es ein wenig bearbeitet, um zu versuchen, Punkt 3 etwas klarer zu machen.
Jeromy Anglim
Vielen Dank; viele tolle Infos hier. Es wird schwierig sein, aus meiner Gewohnheit herauszukommen, die Normalität von Rohdaten (innerhalb von Zellen) zu betrachten, aber ich werde sicherlich Residuen für zukünftige Analysen berücksichtigen.
Lee
3

Trotz vieler einführender Lehrbücher, die dies betonen, brauchen Sie keine Normalität. Mit einer bescheidenen Stichprobengröße und der gleichen Varianz innerhalb jeder der Gruppen, dh Homoskedastizität, liefert ANOVA einen genauen Rückschluss auf die Unterschiede in der mittleren Reaktion zwischen den Gruppen. Wenn Grund zu der Annahme besteht, dass eine nicht konstante Varianz vorliegt - und dies kann durchaus der Fall sein -, können heteroskedastizitätskonsistente Standardfehler verwendet werden.

Diese Eigenschaften sind Erweiterungen derjenigen, die für den t-Test bekannt sind. Bei konstanter Varianz können Sie den T-Test "Plain Vanilla" unabhängig von der Normalität verwenden (ein Ergebnis, das Fisher schon vor langer Zeit bekannt war). Bei nicht konstanter Varianz funktioniert die ungleiche Varianz auch ohne Normalität. Die Version mit ungleicher Varianz entspricht dem Wald-Test, bei dem heteroskedastizitätskonsistente Standardfehler verwendet werden.

Gast
quelle
Was lässt Sie sagen, dass Normalität keine Rolle spielt? Sowohl die ANOVA als auch der T-Test können sehr empfindlich auf Schiefe reagieren. Wenn die zugrunde liegende Verteilung asymmetrisch ist, sollten Sie keine der beiden Methoden für kleine Stichprobengrößen verwenden.
MånsT
Ich würde mich sehr freuen, Referenzen zu prüfen, die diese Aussage stützen, insbesondere die jüngsten. Ohne solche Referenzen muss ich mich jedoch auf die meisten Lehrbücher verlassen.
Lee
2
Hier ist eine Referenz ; Beachten Sie, dass sie wirklich versuchen, die Methode mit ziemlich extremen Beispielen zu brechen. Mit weniger extremen Daten funktioniert alles bei bescheidenen Stichprobengrößen. Sie können auch den klassischen Text von McCullagh und Nelder zu (verallgemeinerten) linearen Modellen nachschlagen, in dem die lineare Regression sorgfältig durch Modelle mit "konstanter Varianz" beschrieben wird, da dies die entscheidende Annahme ist. Für robuste Standardfehler siehe Intro-Ökonometrie-Texte; Die Dokumentation der STATA-Software ist ebenfalls eine gute Quelle.
Gast