Was sind einige Theoreme, die erklären könnten (dh generativ), warum erwartet werden kann, dass reale Daten normal verteilt sind?
Es gibt zwei, die ich kenne:
Der zentrale Grenzwertsatz (natürlich), der besagt, dass die Summe mehrerer unabhängiger Zufallsvariablen mit Mittelwert und Varianz (auch wenn sie nicht identisch verteilt sind) dazu neigt, normal verteilt zu werden
Sei X und Y unabhängige kontinuierliche RVs mit differenzierbaren Dichten, so dass ihre Fugendichte nur von + y 2 abhängt . Dann sind X und Y normal.
( Crosspost von mathexchange )
Bearbeiten: Zur Verdeutlichung mache ich keine Angaben darüber, wie viel reale Daten normalerweise verteilt werden. Ich frage nur nach Theoremen, die Aufschluss darüber geben, welche Art von Prozessen zu normalverteilten Daten führen können.
Antworten:
Viele einschränkende Verteilungen von diskreten RVs (Poisson, Binomial usw.) sind ungefähr normal. Denken Sie an Plinko. In fast allen Fällen, in denen die ungefähre Normalität gilt, tritt die Normalität nur bei großen Stichproben ein.
Die meisten realen Daten werden NICHT normal verteilt. Eine Arbeit von Micceri (1989) mit dem Titel " Das Einhorn, die normale Kurve und andere unwahrscheinliche Kreaturen " untersuchte 440 groß angelegte Erfolge und psychometrische Maßnahmen. Er fand eine große Variabilität in den Verteilungen für ihre Momente und nicht viel Beweise für (auch nur ungefähre) Normalität.
In einem Artikel von Steven Stigler aus dem Jahr 1977 mit dem Titel " Arbeiten robuste Schätzer mit realen Daten " verwendete er 24 Datensätze, die aus den berühmten Versuchen des 18. Jahrhunderts stammen, die Entfernung von der Erde zur Sonne zu messen, und Versuche des 19. Jahrhunderts, die Lichtgeschwindigkeit zu messen. Er berichtete über die Schiefe und die Kurtosis der Probe in Tabelle 3. Die Daten sind stark schwanzförmig.
In der Statistik wird häufig von Normalität ausgegangen, da dies die maximale Wahrscheinlichkeit (oder eine andere Methode) erleichtert. Was die beiden oben zitierten Papiere jedoch zeigen, ist, dass die Annahme oft schwach ist. Aus diesem Grund sind Robustheitsstudien nützlich.
quelle
Es gibt auch eine informationstheoretische Begründung für die Verwendung der Normalverteilung. Bei Mittelwert und Varianz hat die Normalverteilung die maximale Entropie unter allen realwertigen Wahrscheinlichkeitsverteilungen. Es gibt viele Quellen, die diese Eigenschaft diskutieren. Eine kurze kann hier gefunden werden . Eine allgemeinere Diskussion der Motivation zur Verwendung der Gaußschen Verteilung unter Einbeziehung der meisten der bisher genannten Argumente findet sich in diesem Artikel aus der Zeitschrift Signal Processing.
quelle
In der Physik wird CLT üblicherweise als Grund für normalverteilte Fehler bei vielen Messungen genannt.
Die beiden häufigsten Fehlerverteilungen in der Experimentalphysik sind Normal und Poisson. Letzteres tritt normalerweise bei Zählmessungen auf, beispielsweise bei radioaktivem Zerfall.
Ein weiteres interessantes Merkmal dieser beiden Verteilungen ist, dass eine Summe von Zufallsvariablen aus Gauß und Poisson zu Gauß und Poisson gehört.
Es gibt mehrere Bücher über Statistik in experimentellen Wissenschaften wie dieses : Gerhard Bohm, Günter Zech, Einführung in Statistik und Datenanalyse für Physiker, ISBN 978-3-935702-41-6
quelle
Die CLT ist äußerst nützlich, wenn Rückschlüsse auf Dinge wie die Durchschnittsbevölkerung gezogen werden sollen, da wir eine Art Linearkombination aus einer Reihe von Einzelmessungen berechnen, um dorthin zu gelangen. Wenn wir jedoch versuchen, Rückschlüsse auf einzelne Beobachtungen zu ziehen, insbesondere auf zukünftige ( z. B. Vorhersageintervalle), sind Abweichungen von der Normalität viel wichtiger, wenn wir an den Schwänzen der Verteilung interessiert sind. Wenn wir zum Beispiel 50 Beobachtungen haben, machen wir eine sehr große Extrapolation (und einen Vertrauenssprung), wenn wir etwas über die Wahrscheinlichkeit einer zukünftigen Beobachtung sagen, die mindestens 3 Standardabweichungen vom Mittelwert beträgt.
quelle