Gründe für die normale Datenverteilung

19

Was sind einige Theoreme, die erklären könnten (dh generativ), warum erwartet werden kann, dass reale Daten normal verteilt sind?

Es gibt zwei, die ich kenne:

  1. Der zentrale Grenzwertsatz (natürlich), der besagt, dass die Summe mehrerer unabhängiger Zufallsvariablen mit Mittelwert und Varianz (auch wenn sie nicht identisch verteilt sind) dazu neigt, normal verteilt zu werden

  2. Sei X und Y unabhängige kontinuierliche RVs mit differenzierbaren Dichten, so dass ihre Fugendichte nur von + y 2 abhängt . Dann sind X und Y normal.x2y2

( Crosspost von mathexchange )

Bearbeiten: Zur Verdeutlichung mache ich keine Angaben darüber, wie viel reale Daten normalerweise verteilt werden. Ich frage nur nach Theoremen, die Aufschluss darüber geben, welche Art von Prozessen zu normalverteilten Daten führen können.

anonym
quelle
7
Möglicherweise finden Sie in unserem Thread unter stats.stackexchange.com/questions/4364 interessantes Material . Um mögliche Verwirrung bei einigen Lesern zu vermeiden, möchte ich hinzufügen (und ich hoffe, dies war Ihre Absicht), dass Ihre Frage nicht als Hinweis darauf verstanden werden sollte, dass alle oder sogar die meisten tatsächlichen Datensätze durch eine Normalverteilung angemessen approximiert werden können. In bestimmten Fällen, in denen bestimmte Bedingungen zutreffen, kann es vielmehr nützlich sein, eine Normalverteilung als Bezugsrahmen für das Verständnis oder die Interpretation der Daten zu verwenden. Welche Bedingungen können dies sein?
whuber
Danke für den Link! Und das ist genau richtig, danke für die Klarstellung. Ich werde es auf den ursprünglichen Beitrag bearbeiten.
Anonym
@ user43228, " Es gibt natürlich Unmengen anderer Distributionen, die bei Problemen in der realen Welt auftreten, die überhaupt nicht normal aussehen. " askamathematician.com/2010/02/…
Pacerier

Antworten:

16

Viele einschränkende Verteilungen von diskreten RVs (Poisson, Binomial usw.) sind ungefähr normal. Denken Sie an Plinko. In fast allen Fällen, in denen die ungefähre Normalität gilt, tritt die Normalität nur bei großen Stichproben ein.

Die meisten realen Daten werden NICHT normal verteilt. Eine Arbeit von Micceri (1989) mit dem Titel " Das Einhorn, die normale Kurve und andere unwahrscheinliche Kreaturen " untersuchte 440 groß angelegte Erfolge und psychometrische Maßnahmen. Er fand eine große Variabilität in den Verteilungen für ihre Momente und nicht viel Beweise für (auch nur ungefähre) Normalität.

In einem Artikel von Steven Stigler aus dem Jahr 1977 mit dem Titel " Arbeiten robuste Schätzer mit realen Daten " verwendete er 24 Datensätze, die aus den berühmten Versuchen des 18. Jahrhunderts stammen, die Entfernung von der Erde zur Sonne zu messen, und Versuche des 19. Jahrhunderts, die Lichtgeschwindigkeit zu messen. Er berichtete über die Schiefe und die Kurtosis der Probe in Tabelle 3. Die Daten sind stark schwanzförmig.

In der Statistik wird häufig von Normalität ausgegangen, da dies die maximale Wahrscheinlichkeit (oder eine andere Methode) erleichtert. Was die beiden oben zitierten Papiere jedoch zeigen, ist, dass die Annahme oft schwach ist. Aus diesem Grund sind Robustheitsstudien nützlich.

bsbk
quelle
2
Der Großteil dieses Beitrags ist großartig, aber der einleitende Absatz stört mich, weil er so leicht falsch interpretiert werden könnte. Es scheint - ziemlich explizit - zu sagen, dass eine "große Stichprobe" im Allgemeinen normalverteilt aussieht. In Anbetracht Ihrer nachfolgenden Bemerkungen glaube ich nicht, dass Sie das wirklich sagen wollten.
whuber
Ich hätte klarer sein sollen - ich behaupte nicht, dass die meisten Daten der realen Welt normal verteilt sind. Aber das ist ein großartiger Punkt, den man ansprechen sollte. Und ich nehme an, Sie meinen, dass die Binomialverteilung mit großem n normal ist und die Poissonverteilung mit großem Mittelwert normal ist. Welche anderen Verteilungen tendieren zur Normalität?
Anonym
Danke, ich habe den ersten Absatz bearbeitet. Siehe beispielsweise Wald und Wolfowitz (1944) für einen Satz über lineare Formen unter Permutation. Das heißt, sie zeigten, dass die Zwei-Stichproben-Statistik unter Permutation asymptotisch normal ist.
bsbk
Eine Stichprobenverteilung ist kein "realer Datensatz"! Vielleicht ist die Schwierigkeit, die ich mit offensichtlichen Inkonsistenzen in Ihrem Beitrag habe, auf diese Verwirrung zwischen Verteilung und Daten zurückzuführen. Vielleicht liegt es an der Unklarheit darüber, welchen "begrenzenden" Prozess Sie tatsächlich im Sinn haben.
whuber
3
Die ursprüngliche Frage lautete, "generativ" zu erklären, wie normale reale Daten entstehen könnten. Es ist denkbar, dass reale Daten aus einem Binomial- oder Poisson-Prozess generiert werden, die beide durch die Normalverteilung angenähert werden können. Die Operation fragte nach anderen Beispielen, und das, woran ich dachte, war die Permutationsverteilung, die asymptotisch normal ist (wenn keine Bindungen bestehen). Ich kann mir nicht vorstellen, dass echte Daten aus dieser Distribution generiert werden, also ist eine solche vielleicht eine Strecke.
bsbk
10

Es gibt auch eine informationstheoretische Begründung für die Verwendung der Normalverteilung. Bei Mittelwert und Varianz hat die Normalverteilung die maximale Entropie unter allen realwertigen Wahrscheinlichkeitsverteilungen. Es gibt viele Quellen, die diese Eigenschaft diskutieren. Eine kurze kann hier gefunden werden . Eine allgemeinere Diskussion der Motivation zur Verwendung der Gaußschen Verteilung unter Einbeziehung der meisten der bisher genannten Argumente findet sich in diesem Artikel aus der Zeitschrift Signal Processing.

Igor
quelle
6
Das ist rückwärts, wie ich es verstehe. Es geht darum, dass die Annahme von Normalität in einem streng definierten Sinne eine schwache Annahme ist. Ich verstehe nicht, was dies für reale Daten bedeutet. Sie können auch argumentieren, dass Kurven normalerweise gerade sind, da dies die einfachste Annahme ist, die Sie über die Krümmung machen können. Erkenntnistheorie schränkt Ontologie nicht ein! Wenn der von Ihnen angegebene Verweis darüber hinausgeht, führen Sie bitte die Argumente aus.
Nick Cox
3

In der Physik wird CLT üblicherweise als Grund für normalverteilte Fehler bei vielen Messungen genannt.

Die beiden häufigsten Fehlerverteilungen in der Experimentalphysik sind Normal und Poisson. Letzteres tritt normalerweise bei Zählmessungen auf, beispielsweise bei radioaktivem Zerfall.

Ein weiteres interessantes Merkmal dieser beiden Verteilungen ist, dass eine Summe von Zufallsvariablen aus Gauß und Poisson zu Gauß und Poisson gehört.

Es gibt mehrere Bücher über Statistik in experimentellen Wissenschaften wie dieses : Gerhard Bohm, Günter Zech, Einführung in Statistik und Datenanalyse für Physiker, ISBN 978-3-935702-41-6

Aksakal
quelle
0

Die CLT ist äußerst nützlich, wenn Rückschlüsse auf Dinge wie die Durchschnittsbevölkerung gezogen werden sollen, da wir eine Art Linearkombination aus einer Reihe von Einzelmessungen berechnen, um dorthin zu gelangen. Wenn wir jedoch versuchen, Rückschlüsse auf einzelne Beobachtungen zu ziehen, insbesondere auf zukünftige ( z. B. Vorhersageintervalle), sind Abweichungen von der Normalität viel wichtiger, wenn wir an den Schwänzen der Verteilung interessiert sind. Wenn wir zum Beispiel 50 Beobachtungen haben, machen wir eine sehr große Extrapolation (und einen Vertrauenssprung), wenn wir etwas über die Wahrscheinlichkeit einer zukünftigen Beobachtung sagen, die mindestens 3 Standardabweichungen vom Mittelwert beträgt.

Emil Friedman
quelle