Was ist der Unterschied zwischen dem Shapiro-Wilk-Normalitätstest und dem Kolmogorov-Smirnov-Normalitätstest?

Was ist der Unterschied zwischen dem Shapiro-Wilk-Normalitätstest und dem Kolmogorov-Smirnov-Normalitätstest? Wann werden sich die Ergebnisse dieser beiden Methoden unterscheiden?

distributions statistical-significance normality-assumption kolmogorov-smirnov russellpierce
quelle

Antworten:

Man kann die beiden nicht einmal wirklich vergleichen, da Kolmogorov-Smirnov für eine vollständig spezifizierte Verteilung ist (wenn Sie also die Normalität testen, müssen Sie den Mittelwert und die Varianz angeben; diese können aus den Daten nicht geschätzt werden *), während Der Shapiro-Wilk ist für Normalität mit nicht spezifiziertem Mittelwert und Varianz.

* Sie können auch nicht standardisieren, indem Sie geschätzte Parameter verwenden und auf Standardnormal testen. das ist eigentlich das gleiche.

Ein Vergleich wäre, den Shapiro-Wilk durch einen Test für einen bestimmten Mittelwert und eine Varianz in einer Normalen zu ergänzen (die Tests auf irgendeine Weise zu kombinieren) oder die KS-Tabellen für die Parameterschätzung anpassen zu lassen (aber dann ist es keine Verteilung mehr -frei).

Es gibt einen solchen Test (der dem Kolmogorov-Smirnov mit geschätzten Parametern entspricht) - den Lilliefors-Test; Die Normalitätstestversion kann mit der Shapiro-Wilk-Version verglichen werden (und hat im Allgemeinen eine geringere Leistung). Konkurrenzfähiger ist der Anderson-Darling-Test (der auch für die Parameterschätzung angepasst werden muss, damit ein Vergleich gültig ist).

Der KS-Test (und der Lilliefors-Test) untersuchen den größten Unterschied zwischen der empirischen CDF und der angegebenen Verteilung, während der Shapiro Wilk zwei Varianzschätzungen effektiv vergleicht. Die eng verwandte Shapiro-Francia kann als monotone Funktion der quadratischen Korrelation in einem QQ-Diagramm betrachtet werden. Wenn ich mich recht erinnere, berücksichtigt der Shapiro-Wilk auch Kovarianzen zwischen den Auftragsstatistiken.

$t_{30}$ $n>60$

[Es sollte bedacht werden, dass es viel mehr Tests für die Normalität gibt als diese.]

Glen_b - Setzen Sie Monica wieder ein
quelle

Dies ist eine interessante Antwort, aber ich habe ein wenig Schwierigkeiten zu verstehen, wie ich es mit der Praxis in Einklang bringen kann. Vielleicht sollten dies andere Fragen sein, aber was ist die Folge davon, dass die Parameterschätzung im KS-Test ignoriert wird? Bedeutet dies, dass der Lillefors-Test weniger Leistung hat als ein falsch durchgeführter KS, bei dem die Parameter anhand der Daten geschätzt wurden?

Russellpierce

@rpierce - Die wichtigste Auswirkung der Behandlung von geschätzten Parametern als bekannt besteht darin, das tatsächliche Signifikanzniveau (und damit die Leistungskurve) drastisch von dem zu senken, was es sein sollte, wenn Sie es berücksichtigen (wie dies bei Lilliefors der Fall ist). Das heißt, der Lilliefors ist der KS, der für die Parameterschätzung "richtig gemacht" wurde, und er hat eine wesentlich bessere Leistung als der KS. Auf der anderen Seite hat der Lilliefors eine viel schlechtere Leistung als der Shapiro-Wilk-Test. Kurz gesagt, der KS ist anfangs kein besonders leistungsfähiger Test, und wir verschlimmern ihn, indem wir ignorieren, dass wir eine Parameterschätzung durchführen.

Glen_b

... Denken Sie daran, wenn wir von "besserer Macht" und "schlechterer Macht" sprechen, beziehen wir uns im Allgemeinen auf Macht gegenüber dem, was die Leute im Allgemeinen als interessante Art von Alternativen ansehen.

Glen_b

Ich habe eine Leistungskurve gesehen, ich habe nur nicht darüber nachgedacht, was ein Absenken oder Anheben davon bedeuten würde, und stattdessen hat Gott an Ihrem zweiten Kommentar festgehalten, der mit "im Gedächtnis behalten" beginnt. Irgendwie habe ich mich gedreht und dachte, Sie sagten, dass "bessere" Leistung bedeutet, die Leistungskurve dort zu haben, wo sie sein sollte. Dass wir in der KS vielleicht betrogen haben und unrealistische Macht erlangt haben, weil wir Parameter übergeben haben, die für die Schätzung hätte bestraft werden müssen (weil ich das gewohnt bin, weil ich nicht erkannt habe, dass ein Parameter aus einer Schätzung stammt). .

Russellpierce

Ich bin mir nicht sicher, wie ich diese Kommentare verpasst habe, aber ja, berechnete p-Werte aus dem KS-Test mit geschätzten Parametern, als ob sie bekannt / spezifiziert wären, sind tendenziell zu hoch. Versuchen Sie es in R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))- Wenn die p-Werte so wären, wie sie sein sollten, würde das einheitlich aussehen!

Glen_b -Reinstate Monica

Kurz gesagt, der Shapiro-Wilk-Test ist ein spezifischer Test für die Normalität, wohingegen die vom Kolmogorov-Smirnov-Test verwendete Methode allgemeiner, aber weniger leistungsfähig ist (was bedeutet, dass die Nullhypothese der Normalität weniger häufig korrekt verworfen wird). Beide Statistiken nehmen die Normalität als Null und erstellen eine Teststatistik auf der Grundlage der Stichprobe. Ihre Vorgehensweise unterscheidet sich jedoch in einer Weise, die sie mehr oder weniger empfindlich gegenüber Merkmalen normaler Verteilungen macht.

Wie genau W (die Teststatistik für Shapiro-Wilk) berechnet wird, ist ein wenig umstritten. Konzeptionell geht es jedoch darum, die Stichprobenwerte nach Größe zu ordnen und die Übereinstimmung mit den erwarteten Mitteln, Varianzen und Kovarianzen zu messen. Diese mehrfachen Vergleiche gegen die Normalität verleihen dem Test meines Wissens mehr Kraft als der Kolmogorov-Smirnov-Test, und das ist eine Möglichkeit, in der sie sich unterscheiden können.

Im Gegensatz dazu leitet sich der Kolmogorov-Smirnov-Normalitätstest aus einem allgemeinen Ansatz zur Beurteilung der Anpassungsgüte ab, indem die erwartete kumulative Verteilung mit der empirischen kumulativen Verteilung verglichen wird, vis:

Alt-Text

Als solches ist es in der Mitte der Verteilung empfindlich und nicht an den Schwänzen. Allerdings ist der KS-Test konvergent, in dem Sinne, dass der Test, da n gegen unendlich geht, mit der Wahrscheinlichkeit zur wahren Antwort konvergiert (ich glaube, dass das Glivenko-Cantelli-Theorem hier zutrifft, aber jemand kann mich korrigieren). Dies sind zwei weitere Möglichkeiten, wie sich diese beiden Tests in ihrer Bewertung der Normalität unterscheiden können.

John L. Taylor
quelle

Außerdem ... Der Shapiro-Wilk-Test wird häufig verwendet, um Abweichungen von der Normalität in kleinen Stichproben abzuschätzen. Tolle Antwort, John! Vielen Dank.

aL3xa

+1, zwei weitere Anmerkungen zu KS: Es kann verwendet werden, um gegen jede Hauptverteilung zu testen (während SW nur für die Normalität ist), und die geringere Leistung könnte eine gute Sache mit größeren Samples sein.

gung - Wiedereinsetzung von Monica

Wie ist niedriger Strom eine gute Sache? Solange Typ I gleich bleibt, ist höhere Leistung nicht immer besser? Darüber hinaus ist KS in der Regel nicht weniger mächtig, nur vielleicht zur Leptokurtose? Zum Beispiel ist KS viel leistungsfähiger für Schräglauf ohne eine entsprechende Zunahme von Fehlern des Typs 1.

John

Die Kolmogorov-Smirnov ist für eine voll spezifizierte Distribution. Der Shapiro Wilk ist nicht. Sie können nicht verglichen werden ... denn sobald Sie die erforderlichen Anpassungen vornehmen, um sie vergleichbar zu machen, haben Sie nicht mehr den einen oder anderen Test .

Glen_b

Fand diese Simulationsstudie, für den Fall, dass etwas Nützliches in der Art von Details hinzugefügt wird. Gleiche allgemeine Schlussfolgerung wie oben: Der Shapiro-Wilk-Test ist empfindlicher. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf

Nick Stauner