Wenn mein Histogramm eine glockenförmige Kurve zeigt, kann ich sagen, dass meine Daten normal verteilt sind?

Ich habe ein Histogramm für das Alter der Befragten erstellt und es geschafft, eine sehr schöne glockenförmige Kurve zu erhalten, aus der ich den Schluss gezogen habe, dass die Verteilung normal ist.

Dann habe ich den Normalitätstest in SPSS mit n = 169 durchgeführt. Der p- Wert (Sig.) Des Kolmogorov-Smirnov-Tests beträgt weniger als 0,05, sodass die Daten die Annahme der Normalität verletzt haben.

Warum zeigt der Test an, dass die Altersverteilung nicht normal ist, aber das Histogramm eine glockenförmige Kurve zeigt, die nach meinem Verständnis normal ist? Welches Ergebnis soll ich verfolgen?

normality-assumption kolmogorov-smirnov histogram eda NoraNorad
quelle

Warum testest du Normalität?

Glen_b -Rate State Monica

Zusätzlich zu dem hervorragenden Kommentar von @ Glen_b und der ebenso hervorragenden Antwort von Aksakal ist zu beachten, dass KS auch für kontinuierliche Verteilungen erfordert, dass der Mittelwert und der SD im Voraus bekannt sind und nicht aus den Daten geschätzt werden. Dies macht den KS-Test im Wesentlichen unbrauchbar. "Der Kolmogorov-Smirnov-Test ist nur eine historische Kuriosität. Er sollte niemals verwendet werden." (D'Agostino in d'Agostino & Stephens, Hrsg., 1986). Verwenden Sie stattdessen Shapiro-Wilks.

Stephan Kolassa

@Stephan Kolassa Guter Rat, aber du meinst Shapiro-Wilk. (Die Vorschläge von MB Wilk und SS Wilks sind oft verwirrt oder verschmolzen; die seltsame Verwendung von 's als besitzergreifend in Englisch kann auch zur Verwirrung beitragen, selbst für viele, die Englisch als Muttersprache haben.)

Nick Cox

Bezogen auf den Kommentar von @StephanKolassa, siehe Ist Shapiro-Wilk der beste Normalitätstest? ... die Antwort ist, dass dies nicht unbedingt der Fall ist, je nachdem, für welche Alternative Sie sich interessieren, aber es ist sehr oft eine gute Wahl.

Silverfish

Antworten:

Wir wissen normalerweise, dass es unmöglich ist, dass eine Variable genau normal verteilt ist ...

Die Normalverteilung hat unendlich lange Schwänze, die sich in beide Richtungen erstrecken - es ist unwahrscheinlich, dass Daten in diesen Extremen weit entfernt liegen, aber für eine echte Normalverteilung muss dies physikalisch möglich sein. Für das Alter wird ein normalverteiltes Modell vorhersagen, dass Daten mit einer Wahrscheinlichkeit ungleich Null 5 Standardabweichungen über oder unter dem Mittelwert liegen - was physikalisch unmöglichen Altersstufen entsprechen würde, z. B. unter 0 oder über 150. (Wenn Sie sich das ansehen Bei einer Bevölkerungspyramide ist nicht klar, warum Sie erwarten würden, dass das Alter überhaupt annähernd normalverteilt ist.) Wenn Sie Höhendaten hätten, die intuitiv einer "normaleren" Verteilung folgen könnten, könnte dies nur wirklich der Fall sein normal, wenn Höhen unter 0 cm oder über 300 cm möglich sind.

Ich habe gelegentlich gesehen, dass wir dieses Problem umgehen können, indem wir die Daten so zentrieren, dass sie den Mittelwert Null haben. Auf diese Weise sind sowohl positive als auch negative "zentrierte Alter" möglich. Obwohl dies sowohl negative Werte physikalisch plausibel als auch interpretierbar macht (negative zentrierte Werte entsprechen tatsächlichen Werten, die unter dem Mittelwert liegen), wird das Problem nicht umgangen, dass das normale Modell physikalisch unmögliche Vorhersagen mit einer Wahrscheinlichkeit ungleich Null erzeugt, sobald Sie dies tun Dekodieren Sie das modellierte "zentrierte Alter" zurück in ein "tatsächliches Alter".

... warum also testen? Auch wenn dies nicht exakt ist, kann Normalität dennoch ein nützliches Modell sein

Die wichtige Frage ist nicht wirklich, ob die Daten genau normal sind - wir wissen a priori, dass dies in den meisten Situationen auch ohne Durchführung eines Hypothesentests nicht der Fall sein kann -, sondern ob die Annäherung für Ihre Anforderungen ausreichend nah ist . Sehen Sie die Frage, ob Normalitätstests im Wesentlichen nutzlos sind?Die Normalverteilung ist für viele Zwecke eine bequeme Annäherung. Es ist selten "richtig" - aber es muss im Allgemeinen nicht genau richtig sein, um nützlich zu sein. Ich würde erwarten, dass die Normalverteilung normalerweise ein vernünftiges Modell für die Körpergröße der Menschen ist, aber es würde einen ungewöhnlicheren Kontext erfordern, damit die Normalverteilung als Modell für das Alter der Menschen Sinn macht.

Wenn Sie wirklich das Bedürfnis haben, einen Normalitätstest durchzuführen, ist Kolmogorov-Smirnov wahrscheinlich nicht die beste Option: Wie in den Kommentaren erwähnt, stehen leistungsfähigere Tests zur Verfügung. Shapiro-Wilk hat eine gute Leistung gegen eine Reihe möglicher Alternativen und den Vorteil, dass Sie den wahren Mittelwert und die Varianz nicht vorher kennen müssen . Beachten Sie jedoch, dass bei kleinen Stichproben möglicherweise recht große Abweichungen von der Normalität immer noch unentdeckt bleiben, während bei großen Stichproben selbst sehr kleine (und aus praktischen Gründen irrelevante) Abweichungen von der Normalität wahrscheinlich als "hoch signifikant" auftreten (niedrige p -Wert).

"Glockenförmig" ist nicht unbedingt normal

Es scheint, dass Ihnen gesagt wurde, Sie sollten sich "glockenförmige" Daten - symmetrische Daten, die in der Mitte ihren Höhepunkt erreichen und in den Schwänzen eine geringere Wahrscheinlichkeit haben - als "normal" vorstellen. Die Normalverteilung erfordert jedoch eine bestimmte Form der Spitze und der Schwänze. Es gibt andere Distributionen mit einer ähnlichen Form auf den ersten Blick, die Sie vielleicht auch als "glockenförmig" charakterisiert haben, die aber nicht normal sind. Wenn Sie nicht über viele Daten verfügen, können Sie wahrscheinlich nicht unterscheiden, dass "es wie diese Standarddistribution aussieht, aber nicht wie die anderen". Und wenn Sie eine Menge von Daten zu tun haben, werden Sie wahrscheinlich feststellen , es nicht sieht ganz wie jede „off-the-shelf“ Verteilung an alle! Aber in diesem Fall für viele Zwecke Sie '

Galerie "glockenförmiger" Distributionen

Die Normalverteilung ist die "Glockenform", die Sie gewohnt sind; der Cauchy hat eine schärfere Spitze und "schwerere" (dh mit größerer Wahrscheinlichkeit) Schwänze; Die t- Verteilung mit 5 Freiheitsgraden liegt irgendwo dazwischen (die Normalen sind t mit unendlich df und der Cauchy ist t mit 1 df, das macht also Sinn); Bei der Laplace- oder doppelten Exponentialverteilung wird PDF aus zwei neu skalierten Exponentialverteilungen hintereinander gebildet, was zu einem schärferen Peak als die Normalverteilung führt. die Beta-Distributionist ganz anders - es hat keine Schwänze, die zum Beispiel ins Unendliche gehen, sondern scharfe Ausschnitte - aber es kann immer noch die "Buckel" -Form in der Mitte haben. Wenn Sie mit den Parametern herumspielen, können Sie auch eine Art "Schrägbuckel" oder sogar eine "U" -Form erhalten - die Galerie auf der verlinkten Wikipedia-Seite ist sehr lehrreich über die Flexibilität dieser Distribution. Schließlich die Dreiecksverteilung eine weitere einfache Verteilung auf einer endlichen Unterstützung, die häufig bei der Risikomodellierung verwendet wird.

Es ist wahrscheinlich, dass keine dieser Verteilungen Ihre Daten genau beschreibt und sehr viele andere Verteilungen mit ähnlichen Formen existieren, aber ich wollte das Missverständnis ansprechen, dass "in der Mitte buckelig und ungefähr symmetrisch normal bedeutet". Da es Altersgrenzen für Altersdaten gibt, ist es immer noch möglich, dass eine Verteilung mit endlicher Unterstützung wie die Beta oder sogar eine Dreiecksverteilung ein besseres Modell ist als eine mit unendlichen Schwänzen wie die normale, wenn Ihre Altersdaten in der Mitte "buckelig" sind. Beachten Sie, dass Ihr Histogramm selbst dann, wenn Ihre Daten tatsächlich normal verteilt waren, wahrscheinlich nicht der klassischen "Glocke" ähnelt, es sei denn, Ihre Stichprobe ist ziemlich groß. Sogar eine Stichprobe aus einer Distribution wie der Laplace, deren PDF aufgrund ihrer Spitze deutlich von der des Normalen zu unterscheiden ist,

Normal- und Laplace-Proben verschiedener Probengrößen

R-Code

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

Silberfisch
quelle

Das Alter kann nicht normal verteilt sein. Denken Sie logisch: Sie können kein negatives Alter haben, aber die Normalverteilung lässt negative Zahlen zu.

Es gibt viele glockenförmige Verteilungen da draußen. Wenn etwas glockenförmig aussieht, heißt das nicht, dass es normal sein muss.

Es gibt keine Möglichkeit, etwas in der Statistik sicher zu wissen, einschließlich der Verteilung der Daten. Die Form ist ein Hinweis: Die Glockenform ist ein Argument für die Normalverteilung. Außerdem ist es sehr wichtig, Ihre Daten zu verstehen. Die Variable wie das Alter ist oft verzerrt, was eine Normalität ausschließen würde. Wie bereits erwähnt, hat die Normalverteilung keine Grenzen, wird jedoch manchmal für begrenzte Variablen verwendet. Wenn beispielsweise das Durchschnittsalter 20 Jahre und die Standardabweichung 1 beträgt, beträgt die Wahrscheinlichkeit eines Alters <17 oder> 23 weniger als 0,3%. Es ist also möglich, dass die Normalverteilung eine gute Annäherung sein könnte .

Sie können versuchen, einen statistischen Normalitätstest wie Jarque-Bera durchzuführen, bei dem Schiefe und Kurtosis der Probe berücksichtigt werden. Kurtosis kann in einigen Fällen wichtig sein. Dies ist im Finanzbereich sehr wichtig, da Sie möglicherweise die Risiken und Preise von Vermögenswerten unterschätzen, wenn Sie die Daten mit normaler Verteilung modellieren, die Daten jedoch tatsächlich aus einer Fettverteilung stammen.

Es würde Ihnen helfen, einige deskriptive Statistiken oder ein Histogramm Ihrer Alters- und Höhendaten wie Mittelwert, Varianz, Schiefe, Kurtosis zu melden.

Aksakal
quelle

Vielen Dank für Ihre Hilfe. Können Sie mir sagen, woher ich weiß, dass die bestimmten Daten aus der Normalverteilung stammen? In Ihrer Antwort heißt es beispielsweise, dass das Alter nicht aus der Normalverteilung stammen kann. Was ist mit anderen Daten wie der Körpergröße? Was sind die Kriterien, die ich erfüllen muss? Ich möchte mehr darüber erfahren, weil es so aussieht, als hätte ich das Konzept falsch verstanden, da ich neu in diesem Bereich bin. Nochmals vielen Dank.

NoraNorad

Doch oft Normalverteilung wird als verwendete Näherung für Variablen wie Alter. Und es ist kein wirkliches Problem, da Sie age_centredals definieren können age - mean(age)und eine Variable mit dem Mittelwert 0, mit einigen Standardabweichungen, positiven und negativen Werten haben. Also wäre ich nicht so streng.

Tim

Sie können auch keine negative Körpergröße für Menschen haben, aber das wäre kein Hindernis für mich, die Körpergröße als normalverteilt zu bezeichnen, wenn dies eine gute Annäherung wäre. Warum sollte man für Messungen, die nur endlich sein können, eine Verteilung mit unendlichen Grenzen verwenden? Wie @Tim sagt, ist alles eine Frage von Annäherungen, die angesichts der Daten und des Zwecks akzeptabel sind.

Nick Cox

Ich stimme zu, dass die Normalverteilung manchmal eine gute Annäherung für begrenzte Daten sein könnte, aber die Frage war, ob die Daten normal sind oder nicht.

Aksakal

Das Alter der Abiturienten könnte möglicherweise normal verteilt sein und auch negative Werte annehmen, wenn der Mittelwert wie bei @Tim angegeben zentriert ist.

ui_90jax