Ich habe irgendwo in der Literatur gelesen, dass der Shapiro-Wilk-Test als der beste Normalitätstest angesehen wird, weil bei einem gegebenen Signifikanzniveau, , die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie falsch ist, höher ist als im Fall des anderen Normalitätstests.
Können Sie mir bitte mit mathematischen Argumenten erklären, wie genau dies im Vergleich zu einigen anderen Normalitätstests (etwa dem Anderson-Darling-Test) funktioniert?
Antworten:
Zunächst ein allgemeiner Kommentar: Beachten Sie, dass der Anderson-Darling-Test für vollständig spezifizierte Verteilungen gilt, während der Shapiro-Wilk für Normalen mit jedem Mittelwert und jeder Varianz gilt. Wie in D'Agostino & Stephens [ 1 ] erwähnt, passt sich der Anderson-Darling auf sehr bequeme Weise an den Schätzungsfall an, ist mit dem Lilliefors-Test vergleichbar (aber konvergiert schneller und wird auf eine Weise modifiziert, die einfacher zu handhaben ist als dieser der Fall Kolmogorov-Smirnov). Insbesondere sind bei dem normalen Wert von n = 5 Tabellen des asymptotischen Wertes von A ∗ = A 2 ( 1 + 4[1] n=5 kann verwendet werden (keine Prüfung der Anpassungsgüte für n <5).A∗=A2(1+4n−25n2)
Generell ist dies falsch.
Welche Normalitätstests "besser" sind, hängt davon ab, für welche Klassen von Alternativen Sie sich interessieren. Ein Grund für die Beliebtheit des Shapiro-Wilk ist, dass er in der Regel eine sehr gute Leistung bei einer Vielzahl nützlicher Alternativen aufweist. Es taucht in vielen Machtstudien auf und funktioniert normalerweise sehr gut, aber es ist nicht allgemein am besten.
Es ist ziemlich einfach, Alternativen zu finden, unter denen es weniger mächtig ist.
Zum Beispiel hat es bei Alternativen mit leichtem Schwanz oft weniger Leistung als der Schülerspektrum (Vergleichen Sie sie zum Beispiel mit einem Normalitätstest für einheitliche Daten - bein=30hat ein Test auf der Basis vonueine Leistung von ungefähr 63% im Vergleich zu etwas mehr als 38% für den Shapiro Wilk).u=max(x)−min(x)sd(x) n=30 u
Der Anderson-Darling (angepasst an die Parameterschätzung) schneidet bei der doppelten Exponentialfunktion besser ab. Moment-Skewness ist besser gegen einige Skew-Alternativen.
Ich werde es allgemein erklären (wenn Sie genauere Details wünschen, sind die Originalarbeiten und einige der späteren Arbeiten, in denen sie besprochen werden, die beste Wahl):
Betrachten Sie einen einfacheren, aber eng verwandten Test, den Shapiro-Francia. Es ist effektiv eine Funktion der Korrelation zwischen der Ordnungsstatistik und der erwarteten Ordnungsstatistik unter Normalbedingungen (und als solche ein ziemlich direktes Maß dafür, wie gerade die Linie im normalen QQ-Diagramm ist). Wie ich mich erinnere, ist Shapiro-Wilk leistungsfähiger, da es auch die Kovarianzen zwischen den Ordnungsstatistiken berücksichtigt und einen besten linearen Schätzer von aus dem QQ-Plot erzeugt, der dann mit s skaliert wird . Wenn die Verteilung nicht normal ist, liegt das Verhältnis nicht nahe bei 1.σ s
Zum Vergleich: Anderson-Darling basiert wie Kolmogorov-Smirnov und Cramér-von Mises auf der empirischen CDF. Insbesondere basiert es auf gewichteten Abweichungen zwischen dem ECDF und dem theoretischen ECDF (die Varianzgewichtung macht es empfindlicher für Abweichungen im Heck).
Der Test von Shapiro und Chen [ 2 ] (1995) (basierend auf Abständen zwischen Ordnungsstatistiken) zeigt oft etwas mehr Kraft als der Shapiro-Wilk (aber nicht immer); Sie verhalten sich oft sehr ähnlich.[2]
-
Verwenden Sie den Shapiro Wilk, weil er häufig leistungsstark und allgemein verfügbar ist und vielen Menschen bekannt ist (ohne die Notwendigkeit, detailliert zu erklären, was er ist, wenn Sie ihn in einem Papier verwenden). Verwenden Sie ihn nur nicht unter der Illusion, dass er ist "der beste Normalitätstest". Es gibt keinen einzigen besten Normalitätstest.
[1]: D'Agostino, RB und Stephens, MA (1986),
Goodness of Fit Techniques ,
Marcel Dekker, New York.
[2]: Chen, L. und Shapiro, S. (1995)
"Ein alternativer Test auf Normalität basierend auf normalisierten Abständen."
Journal of Statistical Computation and Simulation 53 , 269-287.
quelle
shapiro.test
in R eine Fehlermeldungsample size must be between 3 and 5000
angezeigt. Was sollte dann für ein Test verwendet werden?Der Vergleich, den Sie gelesen haben, enthielt eindeutig nicht
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ), da er über alle Alternativen hinweg die höchstmögliche Leistung bietet. Es sollte also als "am besten" bewertet werden, wenn nur die Leistung in Betracht gezogen wird.Ich stimme jedoch dem Kommentar von Nick Cox zu, dass der beste Test eher eine Handlung als ein formaler Test ist, da die Frage nach "Normal genug" viel wichtiger ist als "Genau normal". Wenn Sie einen aussagekräftigen Test wünschen, würde ich vorschlagen, den qq-Plot mit der in diesem Artikel beschriebenen Methode zu kombinieren:
Eine Implementierung davon ist die
vis.test
Funktion im TeachingDemos-Paket für R (dasselbe Paket wieSnowsPenultimateNormalityTest
).quelle
Ich komme zu spät zur Party, werde aber mit Verweisen auf die veröffentlichten, von Experten überprüften Forschungsergebnisse antworten. Der Grund, warum ich die Frage von OP nicht mit Ja / Nein beantworte, ist, dass sie komplizierter ist, als es scheint. Es gibt keinen Test, der für Stichproben mit oder ohne Ausreißer am leistungsfähigsten wäre. Ausreißer können die Leistung eines Tests erheblich verringern und für einen anderen Test erhöhen. Einige Tests funktionieren besser, wenn die Probe aus einer symmetrischen Verteilung stammt usw.
und
Wenn Sie ihre Forschung wirklich auf Ja / Nein reduzieren möchten, lautet die Antwort JA. Shapiro-Wilks-Test scheint in den meisten Fällen etwas leistungsfähiger zu sein als Anderson-Darling. Sie empfehlen den Shapiro Wilk-Test, wenn Sie keine bestimmte alternative Verteilung im Auge haben. Wenn Sie sich jedoch für dieses Thema interessieren, ist das Papier lesenswert. Schauen Sie sich wenigstens die Tische an.
Edith Seier, Normalitätstests: Leistungsvergleich , in International Encyclopedia of Statistical Science, 2014 - Ein Überblick über veröffentlichte Forschungsergebnisse zu diesem Thema. Auch hier hängt die Antwort von der Stichprobe und Ihrem Wissen über die alternative Verteilung ab, aber die trivialisierte Antwort wäre JA, Shapiro-Wilk ist normalerweise mächtiger, aber nicht immer.
Henry C. Thode, Normalitätstests , in International Encyclopedia of Statistical Science, 2014 - Beschreibung der gängigen Normalitätstests. Seine Empfehlung:
Hier ging es um univariate Tests. Die Thode (2002) hat auch multivariate Tests, zensierte Daten, normale Gemische, Tests in Gegenwart von Ausreißern und vieles mehr.
quelle
Eine ernstere Antwort auf diese Frage und insbesondere das anhaltende Interesse von @ silverfish. Ein Ansatz zur Beantwortung derartiger Fragen besteht darin, einige zu vergleichende Simulationen durchzuführen. Nachfolgend finden Sie einen R-Code, der Daten unter verschiedenen Alternativen simuliert und mehrere der Normalitätstests durchführt und die Leistung vergleicht (sowie ein Konfidenzintervall für die Leistung, da die Leistung durch Simulation geschätzt wird). Ich habe die Stichprobengröße etwas angepasst, da es nicht interessant war, wenn viele der Potenzen nahe 100% oder 5% lagen. Ich fand runde Zahlen, die Potenzen nahe 80% ergaben. Jeder, der interessiert ist, kann diesen Code leicht nehmen und für andere Annahmen, andere Alternativen usw. ändern.
Sie sehen, dass es Alternativen gibt, bei denen einige Tests besser und andere schlechter abschneiden. Die wichtige Frage ist dann, welche Alternativen für Ihre wissenschaftlichen Fragestellungen am realistischsten sind. Dies sollte wirklich durch eine Simulation der Auswirkung der Arten von interessierender Nichtnormalität auf andere durchgeführte Tests ergänzt werden. Einige dieser Arten von Nicht-Normalität wirken sich stark auf andere Tests auf normaler Basis aus, andere wirken sich nicht sehr auf sie aus.
quelle