Mit welchen Tests bestätige ich, dass die Residuen normal verteilt sind?

20

Ich habe einige Daten, die vom Zeichnen eines Diagramms von Residuen gegen die Zeit fast normal aussehen, aber ich möchte sicher sein. Wie kann ich auf Normalität der Fehlerreste prüfen?

pb1
quelle
3
Eng verwandt: Angemessene Normalitätstests für kleine Stichproben . Hier sind ein paar andere Fragen von möglichem Interesse: Ist das Testen der Normalität im Wesentlichen nutzlos , um den Wert des Testens der Normalität zu erörtern ? nicht für eine Diskussion / Klärung des Sinns, in dem Normalität eine Annahme eines linearen Modells ist.
gung - Reinstate Monica
Es ist ein weit verbreitetes Missverständnis im Kern eines Shapiro Wilk-Tests zu sehen! Richtige Bedeutung für H0 ist, das H0 kann nicht abgelehnt werden, aber ACHTUNG! Es bedeutet nicht automatisch "die Daten sind normal verteilt" !!! Alternatives Ergebnis ist "Die Daten sind nicht normal verteilt".
Joe Hallenbeck

Antworten:

28
  1. Kein Test sagt Ihnen, dass Ihre Residuen normal verteilt sind. Tatsächlich können Sie sicher sein, dass dies nicht der Fall ist .

  2. Hypothesentests sind im Allgemeinen keine gute Idee, um Ihre Annahmen zu überprüfen. Die Wirkung von Nicht-Normalität auf Ihrer Folgerung ist nicht generell eine Funktion der Stichprobengröße *, aber das Ergebnis eines Signifikanztest ist . Eine kleine Abweichung von der Normalität ist bei einer großen Stichprobe offensichtlich, obwohl die Antwort auf die Frage des tatsächlichen Interesses ("Inwieweit hat sich dies auf meine Schlussfolgerung ausgewirkt?") Möglicherweise "überhaupt nicht" lautet. Dementsprechend nähert sich eine große Abweichung von der Normalität bei einer kleinen Stichprobengröße möglicherweise nicht der Signifikanz.

  3. Was der Messung der Effektgröße näher kommt, ist eine Diagnose (entweder eine Anzeige oder eine Statistik), die den Grad der Nichtnormalität auf irgendeine Weise misst. Ein QQ-Plot ist eine offensichtliche Anzeige, und ein QQ-Plot aus derselben Grundgesamtheit bei einer Stichprobengröße und bei einer anderen Stichprobengröße sind mindestens beide verrauschte Schätzungen derselben Kurve, die ungefähr dieselbe „Nicht-Normalität“ zeigen. es sollte zumindest annähernd eintönig mit der gewünschten Antwort auf die interessierende Frage zusammenhängen.

Wenn Sie einen Test verwenden müssen, ist Shapiro-Wilk wahrscheinlich so gut wie alles andere (der Chen-Shapiro-Test ist in der Regel etwas besser für Alternativen von allgemeinem Interesse, aber schwieriger zu finden für Implementierungen von) - aber es beantwortet eine Frage, die Sie haben kenne schon die Antwort auf; Jedes Mal, wenn Sie nicht ablehnen, erhalten Sie eine Antwort, bei der Sie sicher sein können, dass sie falsch ist.

Glen_b - Setzen Sie Monica wieder ein
quelle
4
+1 Glen_b, weil Sie mehrere gute Punkte machen. Allerdings würde ich die Verwendung von Fitnesstests nicht so negativ bewerten. Wenn die Probengröße klein oder mäßig ist, hat der Test keine ausreichende Leistung, um geringfügige Abweichungen von der Normalverteilung festzustellen. Sehr große Unterschiede können zu sehr kleinen p-Werten führen (z. B. 0,0001 oder niedriger). Dies können formellere Hinweise sein als die visuelle Beobachtung eines qq-Diagramms, sind aber dennoch sehr nützlich. Man kann sich auch Schätzungen der Schiefe und Kurtosis ansehen. Bei sehr großen Stichproben ist die Güte der Passungstests problematisch.
Michael R. Chernick
4
In diesen Fällen werden kleine Abweichungen festgestellt. Solange der Analytiker erkennt, dass die Populationsverteilung in der Praxis nicht genau normal sein wird und die Zurückweisung der Null-Hypothese ihm nur sagt, dass seine Verteilung leicht nicht normal ist, wird er nicht in die Irre gehen. Der Prüfer sollte dann selbst beurteilen, ob die Annahme der Normalität angesichts der geringfügigen Abweichung, die der Test feststellt, ein Problem darstellt oder nicht. Shapiro-Wilk ist eigentlich einer der stärkeren Tests gegen die Normalitätshypothese.
Michael R. Chernick
+1, ich mag besonders Punkt # 2; entlang dieser Linien zu notieren, es wert ist, dass selbst wenn Skew oder Kurtosis ziemlich schlecht ist, w / wirklich große N, deckt das zentrale Grenzwertsatz Sie, so dass die Zeit , die Sie ist am wenigsten brauchen Normalität.
gung - Wiedereinsetzung von Monica
3
@gung Es gibt einige Umstände, unter denen eine gute Annäherung an die Normalität von Bedeutung ist. Zum Beispiel beim Erstellen von Vorhersageintervallen unter Verwendung normaler Annahmen. Aber ich würde mich immer noch mehr auf eine Diagnose verlassen (eine, die zeigt, wie
ungewöhnlich
Ihr Standpunkt zu Vorhersageintervallen ist gut.
gung - Wiedereinsetzung von Monica
8

Der Shapiro-Wilk-Test ist eine Möglichkeit.

Shapiro-Wilk-Test

Dieser Test ist in fast allen Statistik-Softwarepaketen implementiert. Die Nullhypothese lautet, dass die Residuen normalverteilt sind. Ein kleiner p-Wert gibt an, dass Sie die Null verwerfen und daraus schließen sollten, dass die Residuen nicht normalverteilt sind.

Beachten Sie, dass Sie bei großen Stichproben fast immer ablehnen, sodass die Visualisierung der Residuen wichtiger ist.

Tal
quelle
Es ist "Wilk", nicht "Wilks".
Michael R. Chernick
1

Aus Wikipedia:

Tests der univariaten Normalität umfassen den K-Quadrat-Test von D'Agostino, den Jarque-Bera-Test, den Anderson-Darling-Test, das Cramér-von-Mises-Kriterium und den Lilliefors-Test für die Normalität (selbst eine Anpassung des Kolmogorov-Smirnov-Tests) Shapiro-Wilk-Test, der Pearson-Chi-Quadrat-Test und der Shapiro-Francia-Test. Eine Studie aus dem Jahr 2011 des Journal of Statistical Modeling and Analytics [1] kommt zu dem Schluss, dass Shapiro-Wilk die beste Aussagekraft für eine gegebene Bedeutung besitzt, dicht gefolgt von Anderson-Darling beim Vergleich von Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors und Anderson-Wilk. Lieblingstests.

Taylor
quelle
1
-1: Möglicherweise möchten Sie einen Link zur Wikipedia-Seite einfügen, die Fußnote ("[1]") entfernen und die Blockquote-Funktion verwenden.
Bernd Weiss
1
Der Vorbehalt, den Glen_b gibt, muss immer beachtet werden, wenn einer dieser Fitnesstests verwendet wird. Ich denke, das Ergebnis, das Sie über Shapiro-Wilk sagen, ist nicht so allgemein, wie Sie es sich vorstellen. Ich glaube nicht, dass es einen weltweit leistungsstärksten Test für Normalität gibt.
Michael R. Chernick
2
n1
@GregSnow Ich habe nicht die Zeit, Ihr Paket gründlich durchzusehen, und ich bin möglicherweise nicht in der Lage, mit R alles zu verfolgen. Sagen Sie, dass es einen global leistungsfähigsten Test für die Normalität gibt, oder geben Sie Beispiele an, um zu zeigen, wann verschiedene Tests am leistungsfähigsten sind und es daher keinen globalen gibt. Ich habe meine Zweifel, dass einer existiert und ich glaube nicht, dass Shapiro-Wilk es sein würde. Wenn Sie behaupten, dass einer existiert, würde ich gerne einen mathematischen Beweis oder einen Verweis auf einen sehen.
Michael R. Chernick
1
@MichaelChernick, meine Behauptung ist, dass mein Test mindestens genauso leistungsfähig sein wird (die Nullhypothese der Daten, die von einer exakten Normalität stammen, wird mit gleicher oder höherer Wahrscheinlichkeit zurückgewiesen) als jeder andere Normalitätstest. Der R-Code ist nicht schwer zu befolgen, der Kerncode für die Berechnung des p-Werts lautet "tmp.p <- falls (any (is.rational (x))) {0", sollte der Beweis seiner Potenz offensichtlich sein ( Ich habe nur behauptet, dass es leistungsfähig ist und die Dokumentation nützlich sein könnte, nicht, dass der Test selbst nützlich ist (googeln Sie nach "Cochranes Aphorismus").
Greg Snow