Ein ehemaliger Kollege hat einmal zu mir gesagt:
Normalerweise wenden wir Normalitätstests auf die Ergebnisse von Prozessen an, die unter Null Zufallsvariablen erzeugen, die nur asymptotisch oder fast normal sind (wobei der asymptotische Teil von einer Menge abhängt, die wir nicht groß machen können). In Zeiten von billigem Speicher, Big Data und schnellen Prozessoren sollten Normalitätstests immer die Null der Normalverteilung für große (wenn auch nicht wahnsinnig große) Samples ablehnen. Daher sollten Normalitätstests perverserweise nur für kleine Stichproben verwendet werden, wenn sie vermutlich eine geringere Leistung und eine geringere Kontrolle über die Typ-I-Rate aufweisen.
Ist das ein gültiges Argument? Ist das ein bekanntes Argument? Gibt es bekannte Tests für eine „unschärfere“ Nullhypothese als die Normalität?
quelle
Antworten:
Es ist kein Streit. Es ist eine (ein bisschen nachdrückliche) Tatsache, dass formale Normalitätstests immer die riesigen Stichprobengrößen ablehnen, mit denen wir heute arbeiten. Es ist sogar leicht zu beweisen, dass selbst die kleinste Abweichung von der perfekten Normalität zu einem signifikanten Ergebnis führt, wenn n groß wird. Und da jeder Datensatz einen gewissen Grad an Zufälligkeit aufweist, ist kein einzelner Datensatz eine perfekt normalverteilte Stichprobe. In der angewandten Statistik ist die Frage jedoch nicht, ob die Daten / Residuen ... völlig normal sind, sondern normal genug, um die Annahmen zu treffen.
Lassen Sie mich mit dem Shapiro-Wilk-Test veranschaulichen . Der folgende Code erstellt eine Reihe von Verteilungen, die sich der Normalität nähern, jedoch nicht vollständig normal sind. Als nächstes testen wir,
shapiro.test
ob eine Stichprobe aus diesen fast normalen Verteilungen von der Normalität abweicht. In R:Die letzte Zeile prüft, welcher Anteil der Simulationen für jede Stichprobengröße signifikant von der Normalität abweicht. So weicht in 87% der Fälle eine Stichprobe von 5000 Beobachtungen nach Shapiro-Wilks signifikant von der Normalität ab. Wenn Sie jedoch die qq-Diagramme sehen, würden Sie sich niemals für eine Abweichung von der Normalität entscheiden. Unten sehen Sie als Beispiel die qq-Diagramme für einen Satz von Zufallsstichproben
mit p-Werten
quelle
R
Implementierung). Aber das ist alles - es hat keinen Einfluss auf den Umfang der Nützlichkeit von Normalitätstests im Allgemeinen. Die anfängliche Behauptung, dass Normalitätstests bei großen Stichproben immer ablehnen, ist einfach falsch.Wenn man darüber nachdenkt, ob Normalitätstests "im Wesentlichen nutzlos" sind, muss man sich zuerst überlegen, wofür sie nützlich sein sollen. Viele Leute (zumindest viele Wissenschaftler) verstehen die Frage, die der Normalitätstest beantwortet, falsch.
Die Frage Normalitätstests beantworten: Gibt es überzeugende Beweise für eine Abweichung vom Gaußschen Ideal? Bei mäßig großen realen Datensätzen lautet die Antwort fast immer Ja.
Die Frage, die Wissenschaftler häufig von der Beantwortung des Normalitätstests erwarten: Weichen die Daten ausreichend vom Gaußschen Ideal ab, um die Verwendung eines Tests "zu verbieten", der eine Gaußsche Verteilung voraussetzt? Wissenschaftler möchten häufig, dass der Normalitätstest der Schiedsrichter ist, der entscheidet, wann herkömmliche (ANOVA usw.) Tests aufgegeben und stattdessen transformierte Daten analysiert oder einen rangbasierten nichtparametrischen Test oder einen Resampling- oder Bootstrap-Ansatz verwendet. Zu diesem Zweck sind Normalitätstests nicht sehr nützlich.
quelle
Ich denke, dass Normalitätstests als Begleiter für grafische Untersuchungen nützlich sein können. Sie müssen jedoch richtig eingesetzt werden. Meiner Meinung nach bedeutet dies, dass viele beliebte Tests, wie die Shapiro-Wilk-, Anderson-Darling- und Jarque-Bera-Tests, niemals verwendet werden sollten.
Bevor ich meinen Standpunkt erläutere, möchte ich noch einige Anmerkungen machen:
(In meiner Definition) Ein Test auf Normalität richtet sich gegen eine Klasse von Alternativen, wenn er für Alternativen aus dieser Klasse, aber nicht für Alternativen aus anderen Klassen empfindlich ist. Typische Beispiele sind Tests, die auf schiefe oder kurtotische Alternativen abzielen . Die einfachsten Beispiele verwenden die Probeschiefe und die Kurtosis als Teststatistik.
Gezielte Normalitätstests sind wohl häufig Omnibus-Tests (wie den Shapiro-Wilk- und Jarque-Bera-Tests) vorzuziehen, da es häufig vorkommt, dass nur einige Arten von Nichtnormalität für ein bestimmtes Inferenzverfahren von Belang sind .
Betrachten wir als Beispiel den Student-T-Test. Angenommen, wir haben eine iid-Stichprobe aus einer Verteilung mit Schiefe und (überschüssiger) KurtosisWenn symmetrisch zu seinem Mittelwert ist, ist . Sowohl als auch sind 0 für die Normalverteilung.γ=E(X−μ)3σ3 κ=E(X−μ)4σ4−3. X γ=0 γ κ
Unter Regularitätsannahmen erhalten wir für die cdf der Teststatistik folgende asymptotische Erweiterung :Tn P(Tn≤x)=Φ(x)+n−1/216γ(2x2+1)ϕ(x)−n−1x(112κ(x2−3)−118γ2(x4+2x2−3)−14(x2+3))ϕ(x)+o(n−1),
Dabei ist die PDF-Datei und die PDF- Datei der Standardnormalverteilung.Φ(⋅) ϕ(⋅)
Mit Hilfe von Simulationen kann nachgewiesen werden, dass dies auch für kleine . Daher ist der Student-T-Test empfindlich gegen Schräglage, aber relativ robust gegen schwere Schwänze, und es ist vernünftig, einen Test auf Normalität zu verwenden, der auf Schräglagen-Alternativen abzielt, bevor der T-Test angewendet wird .n
Als Faustregel ( kein Naturgesetz) ist die Schlußfolgerung über Mittelwerte empfindlich gegen Schrägstellung und die Schlußfolgerung über Varianzen empfindlich gegen Kurtosis.
Die Verwendung eines gezielten Normalitätstests hat den Vorteil, dass bei "gefährlichen" Alternativen eine höhere und bei weniger "gefährlichen" Alternativen eine niedrigere Leistung erzielt wird, was bedeutet, dass wir die Normalität aufgrund von gewonnenen Abweichungen von der Normalität weniger wahrscheinlich ablehnen Beeinträchtigt nicht die Leistung unserer Inferenzprozedur. Die Nichtnormalität wird auf eine Weise quantifiziert, die für das vorliegende Problem relevant ist. Dies ist grafisch nicht immer einfach zu bewerkstelligen.
quelle
IMHO-Normalitätstests sind aus folgenden Gründen absolut nutzlos:
Bei kleinen Stichproben besteht eine gute Chance, dass die tatsächliche Verteilung der Population im Wesentlichen nicht normal ist, aber der Normalitätstest ist nicht leistungsfähig, um sie zu erfassen.
Bei großen Stichproben sind Dinge wie der T-Test und die ANOVA ziemlich robust gegenüber Nicht-Normalität.
Die ganze Idee einer normalverteilten Population ist jedenfalls nur eine bequeme mathematische Annäherung. Keine der Größen, mit denen typischerweise statistisch umgegangen wird, könnte plausibel Verteilungen mit einer Unterstützung aller reellen Zahlen haben. Zum Beispiel können Menschen keine negative Größe haben. Etwas kann keine negative Masse oder mehr Masse haben, als es im Universum gibt. Daher ist es sicher zu sagen , dass nichts ist genau normalerweise in der realen Welt verteilt.
quelle
Ich denke, dass ein Pre-Test auf Normalität (der informelle Bewertungen mit Grafiken beinhaltet) den Punkt verfehlt.
quelle
Bevor Sie sich fragen, ob ein Test oder eine grobe Überprüfung auf Normalität "nützlich" ist, müssen Sie die Frage hinter der Frage beantworten: "Warum fragen Sie?"
Wenn Sie beispielsweise den Mittelwert einer Datenmenge nur auf ein Vertrauenslimit beschränken möchten , sind Abweichungen von der Normalität möglicherweise von Bedeutung, je nachdem, über wie viele Daten Sie verfügen und wie groß die Abweichungen sind. Abweichungen von der Normalität können jedoch von entscheidender Bedeutung sein, wenn Sie vorhersagen möchten, welcher Extremwert in zukünftigen Beobachtungen oder in der Population, aus der Sie eine Stichprobe gezogen haben, am höchsten sein wird.
quelle
Lassen Sie mich noch eine Kleinigkeit hinzufügen: Die
Durchführung eines Normalitätstests ohne Berücksichtigung des Alphafehlers erhöht Ihre allgemeine Wahrscheinlichkeit, einen Alphafehler auszuführen.
Sie werden nie vergessen, dass jeder zusätzliche Test dies tut, solange Sie nicht auf Alpha-Fehlerakkumulation kontrollieren. Ein weiterer guter Grund, die Normaltests zu verwerfen.
quelle
Die Antworten hier haben bereits einige wichtige Punkte angesprochen. Um es kurz zusammenzufassen:
Ich füge eine Antwort hinzu, um zunächst einen meiner persönlich am häufigsten aufgerufenen und gelesenen statistischen Artikel zu zitieren: " Die Bedeutung von Normalitätsannahmen in großen Datensätzen zur öffentlichen Gesundheit " von Lumley et. al. Es lohnt sich in vollem Umfang zu lesen. In der Zusammenfassung heißt es:
Zusammenfassend lässt sich sagen: Normalität ist im Allgemeinen nicht die Diskussion oder die Aufmerksamkeit wert, die sie erhält, im Gegensatz zu der Wichtigkeit, eine bestimmte wissenschaftliche Frage zu beantworten. Wenn der Wunsch besteht, mittlere Datenunterschiede zusammenzufassen, sind der t-Test und die ANOVA oder die lineare Regression in einem viel breiteren Sinne gerechtfertigt. Tests, die auf diesen Modellen basieren, haben weiterhin das richtige Alpha-Niveau, auch wenn die Verteilungsannahmen nicht erfüllt werden, obwohl die Leistung möglicherweise nachteilig beeinflusst wird.
Die Gründe, warum Normalverteilungen die Aufmerksamkeit erhalten, die sie erhalten, können klassische Gründe sein, bei denen genaue Tests basierend auf F-Verteilungen für ANOVAs und Student-T-Verteilungen für den T-Test erhalten werden konnten. Die Wahrheit ist, dass wir uns unter den vielen modernen Fortschritten der Wissenschaft im Allgemeinen mit größeren Datensätzen befassen, als sie zuvor gesammelt wurden. Wenn es sich tatsächlich um einen kleinen Datensatz handelt, kann die Begründung, dass diese Daten normal verteilt sind, nicht von diesen Daten selbst stammen: Es gibt einfach nicht genug Strom. Die Bemerkung zu anderen Forschungsergebnissen, Replikationen oder sogar zur Biologie oder Wissenschaft des Messprozesses ist meines Erachtens ein viel gerechtfertigterer Ansatz zur Erörterung eines möglichen Wahrscheinlichkeitsmodells, das den beobachteten Daten zugrunde liegt.
Aus diesem Grund geht die Entscheidung für einen rangbasierten Test völlig daneben. Ich stimme jedoch zu, dass die Verwendung robuster Varianzschätzer wie Jackknife oder Bootstrap wichtige Berechnungsalternativen darstellen, die die Durchführung von Tests bei einer Vielzahl wichtigerer Verstöße gegen die Modellspezifikation ermöglichen, wie z. B. Unabhängigkeit oder identische Verteilung dieser Fehler.
quelle
Früher dachte ich , dass Normalitätstests völlig nutzlos waren.
Jetzt berate ich jedoch andere Forscher. Die Beschaffung von Stichproben ist oft sehr teuer, weshalb sie beispielsweise auf n = 8 schließen möchten.
In einem solchen Fall ist es sehr schwierig, bei nichtparametrischen Tests eine statistische Signifikanz zu finden, aber t-Tests mit n = 8 reagieren empfindlich auf Abweichungen von der Normalität. Was wir also bekommen, ist, dass wir sagen können: "Nun, unter der Voraussetzung der Normalität finden wir einen statistisch signifikanten Unterschied" (keine Sorge, dies sind normalerweise Pilotstudien ...).
Dann brauchen wir eine Möglichkeit, diese Annahme zu bewerten. Ich bin auf halbem Weg im Lager, dass das Anschauen von Grundstücken ein besserer Weg ist, aber um ehrlich zu sein, kann es viel Uneinigkeit darüber geben, was sehr problematisch sein kann, wenn einer der Leute, die mit Ihnen nicht einverstanden sind, der ist Gutachter Ihres Manuskripts.
In vielerlei Hinsicht glaube ich immer noch, dass Normalitätstests viele Mängel aufweisen: Zum Beispiel sollten wir uns mehr Gedanken über den Typ-II-Fehler als über den Typ-I-Fehler machen. Aber es besteht Bedarf dafür.
quelle
Für das, was es wert ist, habe ich einmal einen schnellen Sampler für die abgeschnittene Normalverteilung entwickelt, und das Testen der Normalität (KS) war beim Debuggen der Funktion sehr nützlich. Dieser Sampler besteht den Test mit riesigen Stichproben, aber interessanterweise hat der Zikkurat-Sampler der GSL dies nicht getan.
quelle
Das Argument, das Sie gaben, ist eine Meinung. Ich denke, dass es wichtig ist, Normalitätstests durchzuführen, um sicherzustellen, dass die Daten nicht stark vom Normalen abweichen. Ich verwende es manchmal, um zu entscheiden, ob ich für mein Inferenzverfahren einen parametrischen oder einen nichtparametrischen Test verwende. Ich denke, der Test kann in moderaten und großen Samples nützlich sein (wenn der zentrale Grenzwertsatz nicht ins Spiel kommt). Ich neige dazu, Wilk-Shapiro- oder Anderson-Darling-Tests zu verwenden, aber mit SAS bekomme ich sie alle und sie stimmen im Allgemeinen ziemlich gut überein. In einem anderen Sinne denke ich, dass grafische Verfahren wie QQ-Diagramme genauso gut funktionieren. Ein formaler Test hat den Vorteil, dass er objektiv ist. Bei kleinen Stichproben ist es richtig, dass diese Anpassungsgütetests praktisch keine Aussagekraft haben, und dies ist intuitiv sinnvoll, da eine kleine Stichprobe aus einer Normalverteilung zufällig eher nicht normal aussieht und dies im Test berücksichtigt wird. Auch eine hohe Schiefe und Kurtosis, die viele nicht normale Verteilungen von normalen Verteilungen unterscheidet, sind in kleinen Proben nicht leicht zu sehen.
quelle
Ich denke, ein Maximum-Entropie-Ansatz könnte hier nützlich sein. Wir können eine Normalverteilung zuweisen, weil wir glauben, dass die Daten "normal verteilt" sind (was auch immer das bedeutet) oder weil wir nur Abweichungen von ungefähr derselben Größe erwarten. Da die Normalverteilung nur über zwei ausreichende Statistiken verfügt, ist sie auch unempfindlich gegenüber Änderungen in den Daten, die diese Größen nicht verändern. In gewissem Sinne kann man sich eine Normalverteilung als "Durchschnitt" über alle möglichen Verteilungen mit demselben ersten und zweiten Moment vorstellen. Dies ist einer der Gründe, warum die kleinsten Quadrate genauso gut funktionieren sollten wie sie.
quelle
Ich würde nicht sagen, dass es nutzlos ist, aber es hängt wirklich von der Anwendung ab. Beachten Sie, dass Sie nie wirklich wissen, von welcher Distribution die Daten stammen, und dass Sie nur einen kleinen Teil der Erkenntnisse haben. Ihr Stichprobenmittelwert ist in der Stichprobe immer endlich, aber der Mittelwert kann für einige Arten von Wahrscheinlichkeitsdichtefunktionen undefiniert oder unendlich sein. Betrachten wir die drei Arten von Levy-Stable-Verteilungen: Normalverteilung, Levy-Verteilung und Cauchy-Verteilung. Die meisten Ihrer Proben haben nicht viele Beobachtungen am Schwanz (dh außerhalb des Probenmittelwerts). Empirisch ist es also sehr schwer, zwischen den drei zu unterscheiden, so dass sich der Cauchy (undefinierter Mittelwert) und der Levy (unendlicher Mittelwert) leicht als Normalverteilung tarnen könnten.
quelle
Ich glaube, die ersten beiden Fragen wurden gründlich beantwortet, aber ich glaube nicht, dass Frage 3 angesprochen wurde. Viele Tests vergleichen die empirische Verteilung mit einer bekannten hypothetischen Verteilung. Der kritische Wert für den Kolmogorov-Smirnov-Test basiert darauf, dass F vollständig spezifiziert ist. Es kann modifiziert werden, um anhand einer Parameterverteilung mit geschätzten Parametern zu testen. Wenn also unschärfer bedeutet, mehr als zwei Parameter zu schätzen, lautet die Antwort auf die Frage ja. Diese Tests können auf 3 oder mehr Parameterfamilien angewendet werden. Einige Tests sind für eine bessere Leistung ausgelegt, wenn sie mit einer bestimmten Verteilungsfamilie getestet werden. Beispielsweise haben beim Testen der Normalität der Anderson-Darling- oder der Shapiro-Wilk-Test eine größere Leistung als KS oder das Chi-Quadrat, wenn die hypothetische Nullverteilung normal ist.
quelle
Tests, bei denen "etwas", das für die Analyse wichtig ist, durch hohe p-Werte gestützt wird, sind meines Erachtens falsch. Wie andere betonten, ist für große Datensätze ein p-Wert unter 0,05 gewährleistet. Der Test "belohnt" also im Wesentlichen kleine und unscharfe Datensätze und "belohnt" mangels Beweisen. So etwas wie qq-Diagramme sind viel nützlicher. Der Wunsch nach harten Zahlen, um solche Dinge immer zu entscheiden (ja / nein normal / nicht normal), lässt vermissen, dass das Modellieren teilweise eine Kunst ist und wie Hypothesen tatsächlich unterstützt werden.
quelle
Eine gute Anwendung des Normalitätstests, die meines Erachtens nicht erwähnt wurde, ist die Feststellung, ob die Verwendung von Z-Scores in Ordnung ist. Angenommen, Sie haben eine Zufallsstichprobe aus einer Population ausgewählt, und Sie möchten die Wahrscheinlichkeit ermitteln, mit der Sie eine zufällige Person aus der Population auswählen und einen Wert von 80 oder höher erhalten. Dies ist nur möglich, wenn die Verteilung normal ist, da bei Verwendung von Z-Scores davon ausgegangen wird, dass die Populationsverteilung normal ist.
Aber dann sehe ich wohl auch, dass dies streitig ist ...
quelle