Gibt es eine Erklärung dafür, warum es so viele natürliche Phänomene gibt, die der Normalverteilung folgen?

29

Ich halte das für ein faszinierendes Thema und verstehe es nicht ganz. Welches physikalische Gesetz bewirkt, dass so viele Naturphänomene normalverteilt sind? Es wäre intuitiver, wenn sie gleich verteilt wären.

Es ist so schwer für mich, das zu verstehen, und ich habe das Gefühl, dass mir einige Informationen fehlen. Kann mir jemand mit einer guten Erklärung helfen oder mich mit einem Buch / Video / Artikel verlinken?

yoyo_fun
quelle
Überprüfen Sie dies .
Antoni Parellada
7
Haben Sie einen soliden Grund zu der Annahme, dass Ihre Prämisse tatsächlich der Fall ist?
Glen_b
4
Tatsächlich ist die Normalverteilung möglicherweise nicht die "dominante" Verteilung in der Natur. Es gibt viele Phänomene und Verhaltensweisen, die extrem bewertet sind, einen starken Schwanz haben oder Potenzgesetzfunktionen beschreiben. Gabaix dokumentiert viele der wirtschaftlichen und finanziellen Varianten dieser Verteilungsklasse in seinem Aufsatz Potenzgesetze in der Wirtschaft: Eine Einführung , ungated here ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et al. Diskutieren Sie ihre empirische Einschätzung in diesem Artikel Potenzgesetzverteilungen in empirischen Daten , hier ungated
Mike Hunter
Wer hat dir gesagt, dass die Normalverteilung überhaupt dominiert?
Shadowtalker
1
@DJohnson +1 für die Links, aber es ist wichtig darauf hinzuweisen, dass eine wichtige Erkenntnis in der Clauset et al. Papier ist, dass es nicht zu viele empirische Potenzgesetzverteilungen gibt, die stark unterstützt werden! Die Ergebnisse zitierend: "In nur einem Fall - der Verteilung der Häufigkeit des Auftretens von Wörtern im englischen Text - scheint das Potenzgesetz in dem Sinne wirklich überzeugend zu sein, dass es hervorragend zu den Daten passt und keine der Alternativen irgendeine enthält Gewicht."
Sycorax sagt Reinstate Monica

Antworten:

30

Lassen Sie mich zunächst die Prämisse leugnen. Robert Geary hat den Fall wahrscheinlich nicht übertrieben, als er (1947) sagte: " ... Normalität ist ein Mythos; es gab und wird nie eine Normalverteilung geben. " -
Die Normalverteilung ist ein Modell *, ein Annäherung, die manchmal mehr oder weniger nützlich ist.

* (dazu siehe George Box , obwohl ich die Version in meinem Profil bevorzuge).

Dass einige Phänomene annähernd normal sind, mag keine große Überraschung sein, da Summen unabhängiger [oder sogar nicht zu stark korrelierter] Effekte sein sollten, wenn es viele von ihnen gibt und keine eine im Vergleich zur Varianz der substanzielle Varianz aufweist Alles in allem sieht die Verteilung normalerweise normaler aus.

n

Wenn standardisierte Mittel in etwa normal sind, sind dies natürlich standardisierte Summen. Dies ist der Grund für die Argumentation "Summe vieler Effekte". Wenn es also viele kleine Beiträge zu der Variation gibt und diese nicht stark korrelieren, werden Sie sie möglicherweise eher sehen.

Das Berry-Esseen-Theorem gibt uns eine Aussage darüber (Konvergenz zu Normalverteilungen), was tatsächlich mit standardisierten Stichprobenmitteln für iid-Daten geschieht (unter etwas strengeren Bedingungen als für die CLT, da es erfordert, dass der dritte absolute Moment endlich ist) und uns zu sagen, wie schnell es passiert. Nachfolgende Versionen des Theorems befassen sich mit nicht identisch verteilten Komponenten in der Summe , obwohl die Obergrenzen für die Abweichung von der Normalität weniger eng sind.

Weniger formal gibt uns das Verhalten von Windungen mit einigermaßen netten Verteilungen zusätzliche (wenn auch eng verwandte) Gründe für den Verdacht, dass es sich in vielen Fällen um eine faire Annäherung an endliche Stichproben handelt. Faltung fungiert als eine Art "Schmier" -Operator, mit dem Leute, die die Schätzung der Kerneldichte für eine Vielzahl von Kerneln verwenden, vertraut sind. Sobald Sie das Ergebnis standardisiert haben (damit die Varianz bei jeder solchen Operation konstant bleibt), ist beim wiederholten Glätten ein Fortschritt hin zu immer symmetrischeren Hügelformen zu erkennen (und es spielt keine Rolle, ob Sie den Kernel jedes Mal ändern).

Terry Tao gibt einige nette Diskussion Versionen des zentralen Grenzwertsatz und dem Satz von Berry-Esseen hier , und auf dem Weg erwähnt , einen Ansatz zu einer nicht-unabhängige Version von Berry-Esseen.

Es gibt also mindestens eine Klasse von Situationen, in denen wir dies erwarten könnten, und formale Gründe, zu glauben, dass dies in solchen Situationen tatsächlich der Fall sein wird. Im besten Fall ist jedoch jede Annahme, dass das Ergebnis von "Summen vieler Effekte" normal ist, eine Annäherung. In vielen Fällen ist dies eine durchaus vernünftige Annäherung (und in weiteren Fällen reagieren einige Verfahren, die von Normalität ausgehen, zumindest bei großen Stichproben nicht besonders empfindlich auf die Verteilung der einzelnen Werte).

Es gibt viele andere Umstände, in denen die Effekte sich nicht "addieren", und wir können erwarten, dass andere Dinge passieren. Beispielsweise sind bei vielen Finanzdaten die Auswirkungen in der Regel multiplikativ (die Auswirkungen verändern sich prozentual, z. B. in Bezug auf Zinsen, Inflation und Wechselkurse). Dort erwarten wir keine Normalität, aber wir können manchmal eine grobe Annäherung an die Normalität auf der logarithmischen Skala beobachten. In anderen Situationen kann beides nicht angemessen sein, auch nicht im groben Sinne. Beispielsweise werden Zwischenereigniszeiten im Allgemeinen weder durch die Normalität noch durch die Normalität von Protokollen gut angenähert. Es gibt hier weder "Summen" noch "Produkte" von Effekten, für die man argumentieren könnte. Es gibt zahlreiche andere Phänomene, die wir unter bestimmten Umständen für eine bestimmte Art von "Gesetz" argumentieren können.

Glen_b - Setzen Sie Monica wieder ein
quelle
12
+1. Ihr Argument beginnt - meiner Meinung nach ziemlich plausibel - darauf hinzudeuten, dass es eine psychologische Antwort auf die Frage geben könnte, wie zum Beispiel : Wenn jeder auf Ihrem Gebiet Normalverteilungen sieht, wer soll das anders sagen? Dies gilt insbesondere für Untersuchungsbereiche, in denen statistische Verfahren als Fußgängerinstrumente angesehen werden, die möglicherweise zur Sanktionierung eines Papiers zur Veröffentlichung erforderlich sind, ansonsten aber von geringem inhärentem Wert oder Interesse sind.
whuber
2
Als Quetelet beispielsweise den BMI (Body Mass Index) erfand, tat er dies ausdrücklich auf eine Weise, die eine normalverteilte Menge ergab. Darüber haben
Matt Krause
Mir scheint, dass jeder versucht, diese Frage zu umgehen, anstatt sie zu beantworten.
Digio
Geary war Statistiker, daher ist es kein Wunder, dass er Normalität für einen Mythos hielt. Wenn er ein Physiker wäre, würde er es anders sehen.
Aksakal
Kommentare sind nicht für eine längere Diskussion gedacht. Diese Unterhaltung wurde in den Chat verschoben .
Glen_b
20

Es gibt ein berühmtes Sprichwort von Gabriel Lippmann (Physiker, Nobelpreisträger), wie Poincaré sagte:

[Die Normalverteilung] kann nicht durch strenge Abzüge erhalten werden. Mehrere seiner mutmaßlichen Beweise sind schrecklich [...]. Nichtsdestotrotz glaubt es jeder, wie mir M. Lippmann eines Tages sagte, weil die Experimentatoren es als mathematischen Satz und die Mathematiker als experimentelle Tatsache ansehen.

- Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas par des déductions rigoureuses; plus d'une démonstration qu'on a voulu en donner est grossière [...]. Während des Tages und der Amtszeit von Herrn Lippmann bin ich nicht bereit, ein Experte für Mathematik und Mathematik zu sein.

Es scheint, dass wir dieses Zitat nicht in unserem Thread "Liste der statistischen Zitate" haben. Deshalb dachte ich, es wäre gut, es hier zu posten.

Amöbe sagt Reinstate Monica
quelle
Eine Gegenstimme? Jemand hier, der Poincare heimlich hasst?
Amöbe sagt Reinstate Monica
Meine Physikkenntnisse enden mit dem, was ich an der High School gelernt habe, aber hat Gauß die Verteilung ursprünglich nicht im Kontext der normalen Gleichungen aus der Physik studiert? Es war mein Wikipedia-Eindruck, dass Gaußsche Fehler auf natürliche Weise aus einem klassischen Physikmodell stammen
Shadowtalker vom
2
Wir sollten Lippmann mehr als den Autor dieses Bonmots ehren . Gabriel Lippmann war Nobelpreisträger für Physik. (M. hier bedeutet nur Monsieur, Naturellement.)
Nick Cox
3
@ssdecontrol Wie ich mich erinnere, war Gauß an normalen Beobachtungsfehlern interessiert , insbesondere an Astronomie und Geodäsie, aber klug genug zu wissen, dass diese Annahme fragwürdig war. (Er verwendete zum Beispiel auch die absolute Abweichung vom Median als widerstandsfähiges Maß für die Ausbreitung im Jahr 1816.)
Nick Cox,
Fair genug, @Nick. Ich redigierte, um zu klären.
Amöbe sagt Reinstate Monica
7

Welches physikalische Gesetz bewirkt, dass so viele Naturphänomene normalverteilt sind? Es wäre intuitiver, wenn sie gleich verteilt wären.

Die Normalverteilung ist in den Naturwissenschaften weit verbreitet. Die übliche Erklärung ist, warum es bei Messfehlern vorkommt, durch eine Form von Argumentation mit großen Zahlen oder einem zentralen Grenzwertsatz (CLT), die normalerweise so lautet : "Da die Versuchsergebnisse von einer unendlich großen Anzahl von Störungen beeinflusst werden, die aus nicht verwandten Quellen stammen. CLT schlägt vor, dass die Fehler normal verteilt würden ". Zum Beispiel hier ein Auszug aus Statistical Methods in Data Analysis von WJ Metzger:

Das meiste, was wir messen, ist in der Tat die Summe vieler Wohnmobile. Beispielsweise messen Sie die Länge einer Tabelle mit einem Lineal. Die Länge, die Sie messen, hängt von vielen kleinen Effekten ab: optischer Parallaxe, Kalibrierung des Lineals, Temperatur, zitternder Hand usw. Ein digitales Messgerät weist an verschiedenen Stellen seiner Schaltkreise elektronisches Rauschen auf. Was Sie messen, ist also nicht nur das, was Sie messen möchten, sondern es wurden eine große Anzahl (hoffentlich) kleiner Beiträge hinzugefügt. Wenn diese Anzahl kleiner Beiträge groß ist, teilt uns die CLT mit, dass ihre Gesamtsumme Gauß-verteilt ist. Dies ist häufig der Fall und der Grund, warum Auflösungsfunktionen normalerweise Gauß'sch sind.

Wie Sie jedoch wissen müssen, bedeutet dies natürlich nicht, dass jede Verteilung normal ist. Zum Beispiel ist die Poisson-Verteilung in der Physik bei Zählprozessen genauso verbreitet. In der Spektroskopie wird die Cauchy-Verteilung (Breit Wigner) verwendet, um die Form von Strahlungsspektren usw. zu beschreiben.

Das habe ich nach dem Schreiben festgestellt: Alle drei bisher genannten Verteilungen (Gauß, Poisson, Cauchy) sind stabile Verteilungen , wobei Poisson diskret stabil ist . Nachdem ich darüber nachgedacht habe, scheint es eine wichtige Eigenschaft einer Distribution zu sein, die Aggregationen überleben wird: Wenn Sie eine Reihe von Zahlen aus Poisson hinzufügen, ist die Summe ein Poisson. Dies könnte (in gewissem Sinne) erklären, warum es so allgegenwärtig ist.

In unnatürlichen Wissenschaften muss man aus verschiedenen Gründen sehr vorsichtig mit der Anwendung normaler (oder anderer) Verteilungen umgehen. Insbesondere die Korrelationen und Abhängigkeiten sind ein Problem, da sie die Annahmen von CLT verletzen können. In der Finanzbranche ist es beispielsweise bekannt, dass viele Serien normal aussehen, aber einen viel schwereren Schwanz haben , was im Risikomanagement ein großes Problem darstellt.

Schließlich gibt es in den Naturwissenschaften festere Gründe für eine Normalverteilung als eine Art von "Hand winken" -Reduktion, die ich zuvor zitiert habe. Überlegen Sie, Brownsche Bewegung. Wenn die Schocks wirklich unabhängig und infinitesimal sind, hat die Verteilung eines beobachtbaren Pfades zwangsläufig eine Normalverteilung aufgrund der CLT, siehe zB Gleichung (10) in Einsteins berühmtem Werk " Untersuchungen zur Theorie der Brownschen Bewegung ". Er machte sich nicht einmal die Mühe, es mit dem heutigen Namen "Gauß" oder "normal" zu bezeichnen.

ΔxΔpΔxΔp

Seien Sie daher nicht überrascht, wenn Forscher auf verschiedenen Gebieten sehr unterschiedliche Reaktionen auf die Verwendung der Gaußschen Verteilung zeigen. In einigen Bereichen wie der Physik wird erwartet, dass bestimmte Phänomene auf natürliche Weise mit der Gaußschen Verteilung zusammenhängen, die auf einer sehr soliden Theorie beruht, die durch eine enorme Anzahl von Beobachtungen gestützt wird. In anderen Bereichen wird die Normalverteilung aufgrund ihrer technischen Zweckmäßigkeit, der praktischen mathematischen Eigenschaften oder anderer fragwürdiger Gründe verwendet.

Aksakal
quelle
1
+1. Das Zitat ist vernünftig, man kann jedoch feststellen, dass die gemessene Länge nicht negativ (dh begrenzt) sein kann und daher einer normalen Verteilung nicht wirklich folgen kann . Es ist immer eine Annäherung.
Amöbe sagt Reinstate Monica
Unnatürliche Wissenschaften? Sie meinen, wie Dr. Frankensteins ungehörige Experimente? ;-)
Sycorax sagt Reinstate Monica
1
@ user777, es der Nobelpreisträger Landau ‚s Witz :‚Wissenschaften in drei Typen unterteilt werden können: natürliche, unnatürliche und Widernatur‘
Aksakal
@Aksakal: Ich denke, dieser bestimmte Link hat es falsch gemacht; Landau sagte, dass Wissenschaften in "естественные, неестественные и противоественные" (anstelle von "сверхъестественные") unterteilt werden. Keine Ahnung, wie man es übersetzt.
Amöbe sagt Reinstate Monica
@amoeba, ich übersetze "неестественные" als "unnatürlich". "сверхъестественные" ist "übernatürlich", denkt ich. Vielleicht können Russen mich korrigieren.
Aksakal
2

es gibt hier eine Menge zu komplizierter Erklärungen ...

Ein guter Weg, wie es mit mir zusammenhängt, ist der folgende:

  1. Wirf einen einzelnen Würfel, und du hast die gleiche Wahrscheinlichkeit, jede Zahl (1-6) zu würfeln, und daher ist das PDF konstant.

  2. Wirf zwei Würfel und addiere die Ergebnisse. Die PDF-Datei ist nicht mehr konstant. Dies liegt daran, dass es 36 Kombinationen gibt und der summative Bereich 2 bis 12 beträgt. Die Wahrscheinlichkeit einer 2 ist eine eindeutige singuläre Kombination von 1 + 1. Die Wahrscheinlichkeit einer 12 ist auch insofern einzigartig, als sie nur in einer einzigen Kombination von 6 + 6 auftreten kann. Bei 7 gibt es nun mehrere Kombinationen, dh 3 + 4, 5 + 2 und 6 + 1 ( und ihre umgekehrten Permutationen). Wenn Sie vom Mittelwert (z. B. 7) wegarbeiten, gibt es weniger Kombinationen für 6 und 8 usw., bis Sie zu den singulären Kombinationen von 2 und 12 kommen. Dieses Beispiel führt nicht zu einer klaren Normalverteilung, sondern zu mehr Würfeln Fügen Sie hinzu und je mehr Proben Sie entnehmen, desto normaler wird die Verteilung.

  3. Wenn Sie also einen Bereich unabhängiger Variablen summieren, die zufälligen Schwankungen unterliegen (von denen jede ihre eigenen PDF-Dateien haben kann), tendiert die resultierende Ausgabe eher zur Normalität. Dies in Six Sigma-Begriffen gibt uns das, was wir die "Stimme des Prozesses" nennen. Dies nennen wir das Ergebnis der "Common-Cause-Variation" eines Systems. Wenn die Ausgabe daher zur Normalität tendiert, nennen wir dieses System "in statistischer Prozesskontrolle". Wenn die Ausgabe nicht normal ist (verzerrt oder verschoben), dann sagen wir, dass das System einer „Variation aufgrund spezieller Ursachen“ unterliegt, bei der es ein „Signal“ gegeben hat, das das Ergebnis in irgendeiner Weise verzerrt hat.

Hoffentlich hilft das.

davidwm1968
quelle
1

Welches physikalische Gesetz bewirkt, dass so viele Naturphänomene normalverteilt sind?

Keine Ahnung. Andererseits habe ich auch keine Ahnung, ob es wahr ist oder was "so viele" bedeuten.

Wenn Sie das Problem jedoch ein wenig umstellen, gibt es gute Gründe, eine kontinuierliche Größe anzunehmen (dh zu modellieren ), von der Sie glauben, dass sie einen festen Mittelwert und eine Varianz mit einer Normalverteilung hat. Dies liegt daran, dass die Normalverteilung das Ergebnis der Maximierung der Entropie ist, die diesen Momentbeschränkungen unterliegt. Da Entropie grob gesagt ein Maß für die Unsicherheit ist, ist das Normale die unverbindlichste oder höchst ungewisseste Wahl der Verteilungsform.

Die Vorstellung, dass man eine Verteilung durch Maximierung ihrer Entropie unter bekannten Bedingungen auswählen sollte, hat tatsächlich eine gewisse physikalische Grundlage in Bezug auf die Anzahl der möglichen Arten, sie zu erfüllen. Jaynes über statistische Mechanik ist hier die Standardreferenz.

Beachten Sie, dass die maximale Entropie in diesem Fall zwar zu Normalverteilungen motiviert, dass jedoch verschiedene Arten von Einschränkungen gezeigt werden können, die zu verschiedenen Verteilungsfamilien führen, z. B. die bekannten Exponential-, Poisson-, Binomial- usw.

Sivia and Skilling 2005, Kapitel 5, hat eine intuitive Diskussion.

Conjugateprior
quelle