Ich halte das für ein faszinierendes Thema und verstehe es nicht ganz. Welches physikalische Gesetz bewirkt, dass so viele Naturphänomene normalverteilt sind? Es wäre intuitiver, wenn sie gleich verteilt wären.
Es ist so schwer für mich, das zu verstehen, und ich habe das Gefühl, dass mir einige Informationen fehlen. Kann mir jemand mit einer guten Erklärung helfen oder mich mit einem Buch / Video / Artikel verlinken?
Antworten:
Lassen Sie mich zunächst die Prämisse leugnen. Robert Geary hat den Fall wahrscheinlich nicht übertrieben, als er (1947) sagte: " ... Normalität ist ein Mythos; es gab und wird nie eine Normalverteilung geben. " -
Die Normalverteilung ist ein Modell *, ein Annäherung, die manchmal mehr oder weniger nützlich ist.
Dass einige Phänomene annähernd normal sind, mag keine große Überraschung sein, da Summen unabhängiger [oder sogar nicht zu stark korrelierter] Effekte sein sollten, wenn es viele von ihnen gibt und keine eine im Vergleich zur Varianz der substanzielle Varianz aufweist Alles in allem sieht die Verteilung normalerweise normaler aus.
Wenn standardisierte Mittel in etwa normal sind, sind dies natürlich standardisierte Summen. Dies ist der Grund für die Argumentation "Summe vieler Effekte". Wenn es also viele kleine Beiträge zu der Variation gibt und diese nicht stark korrelieren, werden Sie sie möglicherweise eher sehen.
Das Berry-Esseen-Theorem gibt uns eine Aussage darüber (Konvergenz zu Normalverteilungen), was tatsächlich mit standardisierten Stichprobenmitteln für iid-Daten geschieht (unter etwas strengeren Bedingungen als für die CLT, da es erfordert, dass der dritte absolute Moment endlich ist) und uns zu sagen, wie schnell es passiert. Nachfolgende Versionen des Theorems befassen sich mit nicht identisch verteilten Komponenten in der Summe , obwohl die Obergrenzen für die Abweichung von der Normalität weniger eng sind.
Weniger formal gibt uns das Verhalten von Windungen mit einigermaßen netten Verteilungen zusätzliche (wenn auch eng verwandte) Gründe für den Verdacht, dass es sich in vielen Fällen um eine faire Annäherung an endliche Stichproben handelt. Faltung fungiert als eine Art "Schmier" -Operator, mit dem Leute, die die Schätzung der Kerneldichte für eine Vielzahl von Kerneln verwenden, vertraut sind. Sobald Sie das Ergebnis standardisiert haben (damit die Varianz bei jeder solchen Operation konstant bleibt), ist beim wiederholten Glätten ein Fortschritt hin zu immer symmetrischeren Hügelformen zu erkennen (und es spielt keine Rolle, ob Sie den Kernel jedes Mal ändern).
Terry Tao gibt einige nette Diskussion Versionen des zentralen Grenzwertsatz und dem Satz von Berry-Esseen hier , und auf dem Weg erwähnt , einen Ansatz zu einer nicht-unabhängige Version von Berry-Esseen.
Es gibt also mindestens eine Klasse von Situationen, in denen wir dies erwarten könnten, und formale Gründe, zu glauben, dass dies in solchen Situationen tatsächlich der Fall sein wird. Im besten Fall ist jedoch jede Annahme, dass das Ergebnis von "Summen vieler Effekte" normal ist, eine Annäherung. In vielen Fällen ist dies eine durchaus vernünftige Annäherung (und in weiteren Fällen reagieren einige Verfahren, die von Normalität ausgehen, zumindest bei großen Stichproben nicht besonders empfindlich auf die Verteilung der einzelnen Werte).
Es gibt viele andere Umstände, in denen die Effekte sich nicht "addieren", und wir können erwarten, dass andere Dinge passieren. Beispielsweise sind bei vielen Finanzdaten die Auswirkungen in der Regel multiplikativ (die Auswirkungen verändern sich prozentual, z. B. in Bezug auf Zinsen, Inflation und Wechselkurse). Dort erwarten wir keine Normalität, aber wir können manchmal eine grobe Annäherung an die Normalität auf der logarithmischen Skala beobachten. In anderen Situationen kann beides nicht angemessen sein, auch nicht im groben Sinne. Beispielsweise werden Zwischenereigniszeiten im Allgemeinen weder durch die Normalität noch durch die Normalität von Protokollen gut angenähert. Es gibt hier weder "Summen" noch "Produkte" von Effekten, für die man argumentieren könnte. Es gibt zahlreiche andere Phänomene, die wir unter bestimmten Umständen für eine bestimmte Art von "Gesetz" argumentieren können.
quelle
Es gibt ein berühmtes Sprichwort von Gabriel Lippmann (Physiker, Nobelpreisträger), wie Poincaré sagte:
Es scheint, dass wir dieses Zitat nicht in unserem Thread "Liste der statistischen Zitate" haben. Deshalb dachte ich, es wäre gut, es hier zu posten.
quelle
Die Normalverteilung ist in den Naturwissenschaften weit verbreitet. Die übliche Erklärung ist, warum es bei Messfehlern vorkommt, durch eine Form von Argumentation mit großen Zahlen oder einem zentralen Grenzwertsatz (CLT), die normalerweise so lautet : "Da die Versuchsergebnisse von einer unendlich großen Anzahl von Störungen beeinflusst werden, die aus nicht verwandten Quellen stammen. CLT schlägt vor, dass die Fehler normal verteilt würden ". Zum Beispiel hier ein Auszug aus Statistical Methods in Data Analysis von WJ Metzger:
Wie Sie jedoch wissen müssen, bedeutet dies natürlich nicht, dass jede Verteilung normal ist. Zum Beispiel ist die Poisson-Verteilung in der Physik bei Zählprozessen genauso verbreitet. In der Spektroskopie wird die Cauchy-Verteilung (Breit Wigner) verwendet, um die Form von Strahlungsspektren usw. zu beschreiben.
Das habe ich nach dem Schreiben festgestellt: Alle drei bisher genannten Verteilungen (Gauß, Poisson, Cauchy) sind stabile Verteilungen , wobei Poisson diskret stabil ist . Nachdem ich darüber nachgedacht habe, scheint es eine wichtige Eigenschaft einer Distribution zu sein, die Aggregationen überleben wird: Wenn Sie eine Reihe von Zahlen aus Poisson hinzufügen, ist die Summe ein Poisson. Dies könnte (in gewissem Sinne) erklären, warum es so allgegenwärtig ist.
In unnatürlichen Wissenschaften muss man aus verschiedenen Gründen sehr vorsichtig mit der Anwendung normaler (oder anderer) Verteilungen umgehen. Insbesondere die Korrelationen und Abhängigkeiten sind ein Problem, da sie die Annahmen von CLT verletzen können. In der Finanzbranche ist es beispielsweise bekannt, dass viele Serien normal aussehen, aber einen viel schwereren Schwanz haben , was im Risikomanagement ein großes Problem darstellt.
Schließlich gibt es in den Naturwissenschaften festere Gründe für eine Normalverteilung als eine Art von "Hand winken" -Reduktion, die ich zuvor zitiert habe. Überlegen Sie, Brownsche Bewegung. Wenn die Schocks wirklich unabhängig und infinitesimal sind, hat die Verteilung eines beobachtbaren Pfades zwangsläufig eine Normalverteilung aufgrund der CLT, siehe zB Gleichung (10) in Einsteins berühmtem Werk " Untersuchungen zur Theorie der Brownschen Bewegung ". Er machte sich nicht einmal die Mühe, es mit dem heutigen Namen "Gauß" oder "normal" zu bezeichnen.
Seien Sie daher nicht überrascht, wenn Forscher auf verschiedenen Gebieten sehr unterschiedliche Reaktionen auf die Verwendung der Gaußschen Verteilung zeigen. In einigen Bereichen wie der Physik wird erwartet, dass bestimmte Phänomene auf natürliche Weise mit der Gaußschen Verteilung zusammenhängen, die auf einer sehr soliden Theorie beruht, die durch eine enorme Anzahl von Beobachtungen gestützt wird. In anderen Bereichen wird die Normalverteilung aufgrund ihrer technischen Zweckmäßigkeit, der praktischen mathematischen Eigenschaften oder anderer fragwürdiger Gründe verwendet.
quelle
es gibt hier eine Menge zu komplizierter Erklärungen ...
Ein guter Weg, wie es mit mir zusammenhängt, ist der folgende:
Wirf einen einzelnen Würfel, und du hast die gleiche Wahrscheinlichkeit, jede Zahl (1-6) zu würfeln, und daher ist das PDF konstant.
Wirf zwei Würfel und addiere die Ergebnisse. Die PDF-Datei ist nicht mehr konstant. Dies liegt daran, dass es 36 Kombinationen gibt und der summative Bereich 2 bis 12 beträgt. Die Wahrscheinlichkeit einer 2 ist eine eindeutige singuläre Kombination von 1 + 1. Die Wahrscheinlichkeit einer 12 ist auch insofern einzigartig, als sie nur in einer einzigen Kombination von 6 + 6 auftreten kann. Bei 7 gibt es nun mehrere Kombinationen, dh 3 + 4, 5 + 2 und 6 + 1 ( und ihre umgekehrten Permutationen). Wenn Sie vom Mittelwert (z. B. 7) wegarbeiten, gibt es weniger Kombinationen für 6 und 8 usw., bis Sie zu den singulären Kombinationen von 2 und 12 kommen. Dieses Beispiel führt nicht zu einer klaren Normalverteilung, sondern zu mehr Würfeln Fügen Sie hinzu und je mehr Proben Sie entnehmen, desto normaler wird die Verteilung.
Wenn Sie also einen Bereich unabhängiger Variablen summieren, die zufälligen Schwankungen unterliegen (von denen jede ihre eigenen PDF-Dateien haben kann), tendiert die resultierende Ausgabe eher zur Normalität. Dies in Six Sigma-Begriffen gibt uns das, was wir die "Stimme des Prozesses" nennen. Dies nennen wir das Ergebnis der "Common-Cause-Variation" eines Systems. Wenn die Ausgabe daher zur Normalität tendiert, nennen wir dieses System "in statistischer Prozesskontrolle". Wenn die Ausgabe nicht normal ist (verzerrt oder verschoben), dann sagen wir, dass das System einer „Variation aufgrund spezieller Ursachen“ unterliegt, bei der es ein „Signal“ gegeben hat, das das Ergebnis in irgendeiner Weise verzerrt hat.
Hoffentlich hilft das.
quelle
Keine Ahnung. Andererseits habe ich auch keine Ahnung, ob es wahr ist oder was "so viele" bedeuten.
Wenn Sie das Problem jedoch ein wenig umstellen, gibt es gute Gründe, eine kontinuierliche Größe anzunehmen (dh zu modellieren ), von der Sie glauben, dass sie einen festen Mittelwert und eine Varianz mit einer Normalverteilung hat. Dies liegt daran, dass die Normalverteilung das Ergebnis der Maximierung der Entropie ist, die diesen Momentbeschränkungen unterliegt. Da Entropie grob gesagt ein Maß für die Unsicherheit ist, ist das Normale die unverbindlichste oder höchst ungewisseste Wahl der Verteilungsform.
Die Vorstellung, dass man eine Verteilung durch Maximierung ihrer Entropie unter bekannten Bedingungen auswählen sollte, hat tatsächlich eine gewisse physikalische Grundlage in Bezug auf die Anzahl der möglichen Arten, sie zu erfüllen. Jaynes über statistische Mechanik ist hier die Standardreferenz.
Beachten Sie, dass die maximale Entropie in diesem Fall zwar zu Normalverteilungen motiviert, dass jedoch verschiedene Arten von Einschränkungen gezeigt werden können, die zu verschiedenen Verteilungsfamilien führen, z. B. die bekannten Exponential-, Poisson-, Binomial- usw.
Sivia and Skilling 2005, Kapitel 5, hat eine intuitive Diskussion.
quelle