Ich habe ein Histogramm für das Alter der Befragten erstellt und es geschafft, eine sehr schöne glockenförmige Kurve zu erhalten, aus der ich den Schluss gezogen habe, dass die Verteilung normal ist.
Dann habe ich den Normalitätstest in SPSS mit n = 169 durchgeführt. Der p- Wert (Sig.) Des Kolmogorov-Smirnov-Tests beträgt weniger als 0,05, sodass die Daten die Annahme der Normalität verletzt haben.
Warum zeigt der Test an, dass die Altersverteilung nicht normal ist, aber das Histogramm eine glockenförmige Kurve zeigt, die nach meinem Verständnis normal ist? Welches Ergebnis soll ich verfolgen?
normality-assumption
kolmogorov-smirnov
histogram
eda
NoraNorad
quelle
quelle
Antworten:
Wir wissen normalerweise, dass es unmöglich ist, dass eine Variable genau normal verteilt ist ...
Die Normalverteilung hat unendlich lange Schwänze, die sich in beide Richtungen erstrecken - es ist unwahrscheinlich, dass Daten in diesen Extremen weit entfernt liegen, aber für eine echte Normalverteilung muss dies physikalisch möglich sein. Für das Alter wird ein normalverteiltes Modell vorhersagen, dass Daten mit einer Wahrscheinlichkeit ungleich Null 5 Standardabweichungen über oder unter dem Mittelwert liegen - was physikalisch unmöglichen Altersstufen entsprechen würde, z. B. unter 0 oder über 150. (Wenn Sie sich das ansehen Bei einer Bevölkerungspyramide ist nicht klar, warum Sie erwarten würden, dass das Alter überhaupt annähernd normalverteilt ist.) Wenn Sie Höhendaten hätten, die intuitiv einer "normaleren" Verteilung folgen könnten, könnte dies nur wirklich der Fall sein normal, wenn Höhen unter 0 cm oder über 300 cm möglich sind.
Ich habe gelegentlich gesehen, dass wir dieses Problem umgehen können, indem wir die Daten so zentrieren, dass sie den Mittelwert Null haben. Auf diese Weise sind sowohl positive als auch negative "zentrierte Alter" möglich. Obwohl dies sowohl negative Werte physikalisch plausibel als auch interpretierbar macht (negative zentrierte Werte entsprechen tatsächlichen Werten, die unter dem Mittelwert liegen), wird das Problem nicht umgangen, dass das normale Modell physikalisch unmögliche Vorhersagen mit einer Wahrscheinlichkeit ungleich Null erzeugt, sobald Sie dies tun Dekodieren Sie das modellierte "zentrierte Alter" zurück in ein "tatsächliches Alter".
... warum also testen? Auch wenn dies nicht exakt ist, kann Normalität dennoch ein nützliches Modell sein
Die wichtige Frage ist nicht wirklich, ob die Daten genau normal sind - wir wissen a priori, dass dies in den meisten Situationen auch ohne Durchführung eines Hypothesentests nicht der Fall sein kann -, sondern ob die Annäherung für Ihre Anforderungen ausreichend nah ist . Sehen Sie die Frage, ob Normalitätstests im Wesentlichen nutzlos sind?Die Normalverteilung ist für viele Zwecke eine bequeme Annäherung. Es ist selten "richtig" - aber es muss im Allgemeinen nicht genau richtig sein, um nützlich zu sein. Ich würde erwarten, dass die Normalverteilung normalerweise ein vernünftiges Modell für die Körpergröße der Menschen ist, aber es würde einen ungewöhnlicheren Kontext erfordern, damit die Normalverteilung als Modell für das Alter der Menschen Sinn macht.
Wenn Sie wirklich das Bedürfnis haben, einen Normalitätstest durchzuführen, ist Kolmogorov-Smirnov wahrscheinlich nicht die beste Option: Wie in den Kommentaren erwähnt, stehen leistungsfähigere Tests zur Verfügung. Shapiro-Wilk hat eine gute Leistung gegen eine Reihe möglicher Alternativen und den Vorteil, dass Sie den wahren Mittelwert und die Varianz nicht vorher kennen müssen . Beachten Sie jedoch, dass bei kleinen Stichproben möglicherweise recht große Abweichungen von der Normalität immer noch unentdeckt bleiben, während bei großen Stichproben selbst sehr kleine (und aus praktischen Gründen irrelevante) Abweichungen von der Normalität wahrscheinlich als "hoch signifikant" auftreten (niedrige p -Wert).
"Glockenförmig" ist nicht unbedingt normal
Es scheint, dass Ihnen gesagt wurde, Sie sollten sich "glockenförmige" Daten - symmetrische Daten, die in der Mitte ihren Höhepunkt erreichen und in den Schwänzen eine geringere Wahrscheinlichkeit haben - als "normal" vorstellen. Die Normalverteilung erfordert jedoch eine bestimmte Form der Spitze und der Schwänze. Es gibt andere Distributionen mit einer ähnlichen Form auf den ersten Blick, die Sie vielleicht auch als "glockenförmig" charakterisiert haben, die aber nicht normal sind. Wenn Sie nicht über viele Daten verfügen, können Sie wahrscheinlich nicht unterscheiden, dass "es wie diese Standarddistribution aussieht, aber nicht wie die anderen". Und wenn Sie eine Menge von Daten zu tun haben, werden Sie wahrscheinlich feststellen , es nicht sieht ganz wie jede „off-the-shelf“ Verteilung an alle! Aber in diesem Fall für viele Zwecke Sie '
Die Normalverteilung ist die "Glockenform", die Sie gewohnt sind; der Cauchy hat eine schärfere Spitze und "schwerere" (dh mit größerer Wahrscheinlichkeit) Schwänze; Die t- Verteilung mit 5 Freiheitsgraden liegt irgendwo dazwischen (die Normalen sind t mit unendlich df und der Cauchy ist t mit 1 df, das macht also Sinn); Bei der Laplace- oder doppelten Exponentialverteilung wird PDF aus zwei neu skalierten Exponentialverteilungen hintereinander gebildet, was zu einem schärferen Peak als die Normalverteilung führt. die Beta-Distributionist ganz anders - es hat keine Schwänze, die zum Beispiel ins Unendliche gehen, sondern scharfe Ausschnitte - aber es kann immer noch die "Buckel" -Form in der Mitte haben. Wenn Sie mit den Parametern herumspielen, können Sie auch eine Art "Schrägbuckel" oder sogar eine "U" -Form erhalten - die Galerie auf der verlinkten Wikipedia-Seite ist sehr lehrreich über die Flexibilität dieser Distribution. Schließlich die Dreiecksverteilung eine weitere einfache Verteilung auf einer endlichen Unterstützung, die häufig bei der Risikomodellierung verwendet wird.
Es ist wahrscheinlich, dass keine dieser Verteilungen Ihre Daten genau beschreibt und sehr viele andere Verteilungen mit ähnlichen Formen existieren, aber ich wollte das Missverständnis ansprechen, dass "in der Mitte buckelig und ungefähr symmetrisch normal bedeutet". Da es Altersgrenzen für Altersdaten gibt, ist es immer noch möglich, dass eine Verteilung mit endlicher Unterstützung wie die Beta oder sogar eine Dreiecksverteilung ein besseres Modell ist als eine mit unendlichen Schwänzen wie die normale, wenn Ihre Altersdaten in der Mitte "buckelig" sind. Beachten Sie, dass Ihr Histogramm selbst dann, wenn Ihre Daten tatsächlich normal verteilt waren, wahrscheinlich nicht der klassischen "Glocke" ähnelt, es sei denn, Ihre Stichprobe ist ziemlich groß. Sogar eine Stichprobe aus einer Distribution wie der Laplace, deren PDF aufgrund ihrer Spitze deutlich von der des Normalen zu unterscheiden ist,
R-Code
quelle
Das Alter kann nicht normal verteilt sein. Denken Sie logisch: Sie können kein negatives Alter haben, aber die Normalverteilung lässt negative Zahlen zu.
Es gibt viele glockenförmige Verteilungen da draußen. Wenn etwas glockenförmig aussieht, heißt das nicht, dass es normal sein muss.
Es gibt keine Möglichkeit, etwas in der Statistik sicher zu wissen, einschließlich der Verteilung der Daten. Die Form ist ein Hinweis: Die Glockenform ist ein Argument für die Normalverteilung. Außerdem ist es sehr wichtig, Ihre Daten zu verstehen. Die Variable wie das Alter ist oft verzerrt, was eine Normalität ausschließen würde. Wie bereits erwähnt, hat die Normalverteilung keine Grenzen, wird jedoch manchmal für begrenzte Variablen verwendet. Wenn beispielsweise das Durchschnittsalter 20 Jahre und die Standardabweichung 1 beträgt, beträgt die Wahrscheinlichkeit eines Alters <17 oder> 23 weniger als 0,3%. Es ist also möglich, dass die Normalverteilung eine gute Annäherung sein könnte .
Sie können versuchen, einen statistischen Normalitätstest wie Jarque-Bera durchzuführen, bei dem Schiefe und Kurtosis der Probe berücksichtigt werden. Kurtosis kann in einigen Fällen wichtig sein. Dies ist im Finanzbereich sehr wichtig, da Sie möglicherweise die Risiken und Preise von Vermögenswerten unterschätzen, wenn Sie die Daten mit normaler Verteilung modellieren, die Daten jedoch tatsächlich aus einer Fettverteilung stammen.
Es würde Ihnen helfen, einige deskriptive Statistiken oder ein Histogramm Ihrer Alters- und Höhendaten wie Mittelwert, Varianz, Schiefe, Kurtosis zu melden.
quelle
age_centred
als definieren könnenage - mean(age)
und eine Variable mit dem Mittelwert 0, mit einigen Standardabweichungen, positiven und negativen Werten haben. Also wäre ich nicht so streng.