Dies ist wahrscheinlich eine Amateurfrage, aber ich bin daran interessiert, wie die Wissenschaftler auf die Form der Normalverteilungswahrscheinlichkeitsdichtefunktion gekommen sind. Was mich im Grunde stört, ist, dass es für jemanden vielleicht intuitiver ist, wenn die Wahrscheinlichkeitsfunktion normalverteilter Daten eher die Form eines gleichschenkligen Dreiecks als eine Glockenkurve hat, und wie würden Sie einer solchen Person beweisen, dass die Wahrscheinlichkeitsdichtefunktion von Alle normalverteilten Daten haben eine Glockenform. Durch experimentieren? Oder durch eine mathematische Ableitung?
Was betrachten wir eigentlich als normalverteilte Daten? Daten, die dem Wahrscheinlichkeitsmuster einer Normalverteilung folgen, oder etwas anderes?
Grundsätzlich ist meine Frage, warum die Normalverteilungswahrscheinlichkeitsdichtefunktion eine Glockenform hat und keine andere? Und wie haben Wissenschaftler herausgefunden, auf welche realen Szenarien sich die Normalverteilung anwenden lässt, indem sie experimentieren oder die Natur verschiedener Daten selbst untersuchen?
Ich fand diesen Link also sehr hilfreich, um die Herleitung der Funktionsform der Normalverteilungskurve zu erklären und damit die Frage zu beantworten: "Warum sieht die Normalverteilung so aus und nicht anders?". Wirklich umwerfendes Denken, zumindest für mich.
Antworten:
" Die Evolution der Normalverteilung " von SAUL STAHL ist die beste Informationsquelle, um so ziemlich alle Fragen in Ihrem Beitrag zu beantworten. Ich werde ein paar Punkte nur zur Vereinfachung vortragen, da Sie die ausführliche Diskussion im Artikel finden.
Nein, es ist eine interessante Frage für jeden, der Statistiken verwendet, da dies in Standardkursen nirgendwo im Detail behandelt wird.
Schauen Sie sich dieses Bild aus dem Papier an. Es zeigt die Fehlerkurven, die Simpson vor der Entdeckung von Gauß (Normal) zur Analyse experimenteller Daten erstellt hat. Ihre Intuition ist also genau richtig.
Ja, deshalb wurden sie "Fehlerkurven" genannt. Das Experiment bestand aus astronomischen Messungen. Astronomen hatten jahrhundertelang mit Messfehlern zu kämpfen.
Wieder JA! Kurz gesagt: Die Analyse von Fehlern in astronomischen Daten führte Gauss zu seiner (auch als Normal bezeichneten) Verteilung. Dies sind die Annahmen, die er verwendet hat:
Übrigens hat Laplace ein paar verschiedene Ansätze verwendet und auch seine Distribution entwickelt, während er mit astronomischen Daten arbeitete:
Um herauszufinden, warum die Normalverteilung im Experiment Messfehler darstellt, wird hier ein typischer "handwelliger" Erklärungsphysiker verwendet (ein Zitat von Gerhard Böhm, Günter Zech, Einführung in die Statistik und Datenanalyse für Physiker, S. 85):
quelle
Sie scheinen in Ihrer Frage anzunehmen, dass es das Konzept der Normalverteilung gab, bevor die Verteilung identifiziert wurde, und die Leute versuchten herauszufinden, was es war. Mir ist nicht klar, wie das funktionieren würde. [Bearbeiten: Es gibt mindestens einen Sinn, den wir für eine "Suche nach einer Distribution" halten könnten, aber nicht "eine Suche nach einer Distribution, die viele, viele Phänomene beschreibt"]
Das ist nicht der Fall; Die Verteilung war bekannt, bevor sie als Normalverteilung bezeichnet wurde.
Die Normalverteilungsfunktion ist das, was üblicherweise als "Glockenform" bezeichnet wird - alle Normalverteilungen haben dieselbe "Form" (in dem Sinne, dass sie sich nur in Maßstab und Lage unterscheiden).
Daten können in der Verteilung mehr oder weniger "glockenförmig" aussehen, aber das macht es nicht normal. Viele nicht normale Verteilungen sehen ähnlich "glockenförmig" aus.
Die tatsächlichen Bevölkerungsverteilungen, aus denen die Daten stammen, sind wahrscheinlich nie normal, obwohl dies manchmal eine vernünftige Annäherung ist.
Dies gilt normalerweise für fast alle Distributionen, die wir auf Dinge in der realen Welt anwenden - es sind Modelle , keine Fakten über die Welt. [Wenn wir beispielsweise bestimmte Annahmen treffen (für einen Poisson-Prozess), können wir die Poisson-Verteilung ableiten - eine weit verbreitete Verteilung. Aber sind diese Annahmen jemals genau erfüllt? Im Allgemeinen ist das Beste, was wir (in den richtigen Situationen) sagen können, dass sie nahezu wahr sind.]
Ja, um tatsächlich normal verteilt zu sein, müsste die Population, aus der die Stichprobe gezogen wurde, eine Verteilung haben, die die genaue funktionale Form einer Normalverteilung aufweist. Folglich kann keine endliche Population normal sein. Variablen, die notwendigerweise begrenzt sind, können nicht normal sein (zum Beispiel können Zeiten, die für bestimmte Aufgaben benötigt werden, Längen bestimmter Dinge nicht negativ sein, sodass sie nicht normal verteilt werden können).
Ich verstehe nicht, warum dies notwendigerweise intuitiver ist. Es ist sicherlich einfacher.
Bei der ersten Entwicklung von Modellen für Fehlerverteilungen (speziell für die Astronomie in der frühen Phase) haben Mathematiker verschiedene Formen in Bezug auf Fehlerverteilungen (einschließlich einer dreieckigen Verteilung an einem frühen Punkt) in Betracht gezogen als Intuition), die verwendet wurde. Laplace untersuchte zum Beispiel doppelte Exponential- und Normalverteilungen (unter anderem). In ähnlicher Weise verwendete Gauß die Mathematik, um sie ungefähr zur gleichen Zeit abzuleiten, jedoch in Bezug auf andere Überlegungen als Laplace.
In dem engen Sinne, dass Laplace und Gauss "Fehlerverteilungen" in Betracht zogen, könnte man zumindest zeitweise von einer "Suche nach einer Verteilung" sprechen. Beide postulierten einige Eigenschaften für eine Verteilung von Fehlern, die sie für wichtig hielten (Laplace betrachtete eine Abfolge von etwas unterschiedlichen Kriterien im Zeitverlauf), was zu unterschiedlichen Verteilungen führte.
Die funktionale Form des Dings, die als normale Dichtefunktion bezeichnet wird, gibt ihm diese Form. Betrachten Sie die Standardnormale (der Einfachheit halber hat jede andere Norm die gleiche Form und unterscheidet sich nur in Maßstab und Position):
Während einige Leute die Normalverteilung als "normal" angesehen haben, neigen Sie sogar dazu, sie nur in bestimmten Situationen als Annäherung zu betrachten.
Die Entdeckung der Verteilung wird normalerweise de Moivre gutgeschrieben (als Annäherung an das Binom). Tatsächlich leitete er die funktionale Form ab, wenn er versuchte, Binomialkoeffizienten (/ Binomialwahrscheinlichkeiten) zu approximieren, um ansonsten mühsame Berechnungen anzunähern, aber obwohl er die Form der Normalverteilung effektiv ableitet, scheint er nicht über seine Approximation als gedacht zu haben Wahrscheinlichkeitsverteilung, obwohl einige Autoren vorschlagen, dass er tat. Eine gewisse Interpretation ist erforderlich, damit bei dieser Interpretation Unterschiede möglich sind.
Gauß und Laplace arbeiteten Anfang des 19. Jahrhunderts daran. Gauß schrieb 1809 darüber (in Verbindung damit, dass es die Verteilung ist, für die der Mittelwert der MLE des Zentrums ist) und Laplace 1810, als Annäherung an die Verteilung der Summen symmetrischer Zufallsvariablen. Ein Jahrzehnt später liefert Laplace eine frühe Form des zentralen Grenzwertsatzes für diskrete und für kontinuierliche Variablen.
Frühe Bezeichnungen für die Verteilung beinhalten das Fehlergesetz , das Gesetz der Fehlerhäufigkeit und es wurde auch nach Laplace und Gauss benannt, manchmal gemeinsam.
Der Begriff "normal" wurde verwendet, um die Verteilung von drei verschiedenen Autoren in den 1870er Jahren (Peirce, Lexis und Galton) unabhängig zu beschreiben, der erste 1873 und die beiden anderen 1877. Dies ist mehr als sechzig Jahre nach der Arbeit von Gauss und Laplace und mehr als doppelt so viel wie seit de Moivres Annäherung. Galtons Gebrauch davon war wahrscheinlich am einflussreichsten, aber er verwendete den Begriff "normal" in Bezug darauf nur einmal in diesem 1877-Werk (meistens nannte es "das Gesetz der Abweichung").
In den 1880er Jahren verwendete Galton jedoch das Adjektiv "normal" in Bezug auf die Verteilung mehrfach (z. B. als "normale Kurve" im Jahr 1889), und er hatte wiederum großen Einfluss auf spätere Statistiker in Großbritannien (insbesondere Karl Pearson) ). Er sagte nicht, warum er den Begriff "normal" auf diese Weise benutzte, sondern meinte ihn vermutlich im Sinne von "typisch" oder "üblich".
Die erste explizite Verwendung des Ausdrucks "Normalverteilung" scheint von Karl Pearson zu sein; er benutzt es sicherlich im Jahr 1894, obwohl er behauptet, es schon lange zuvor benutzt zu haben (eine Behauptung, die ich mit einiger Vorsicht betrachten würde).
Verweise:
Miller, Jeff
"Frühester bekannter Gebrauch einiger Wörter der Mathematik:"
Normalverteilung (Eintrag von John Aldrich)
http://jeff560.tripod.com/n.html
Stahl, Saul (2006),
"Die Evolution der Normalverteilung",
Mathematics Magazine , Vol. 79, No. 2 (April), S. 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
Normalverteilung, (2016, 1. August).
In Wikipedia, der freien Enzyklopädie.
Abgerufen am 03.08.2016 um 12:02 Uhr von
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History
Hald, A (2007),
"De Moivres normale Annäherung an das Binom, 1733 und seine Verallgemeinerung",
In: Eine Geschichte der parametrischen statistischen Inferenz von Bernoulli bis Fisher, 1713–1935; S. 17-24
[Sie können erhebliche Abweichungen zwischen diesen Quellen in Bezug auf ihre Darstellung von de Moivre feststellen]
quelle
Die „normale“ Verteilung ist definiert , dass bestimmte Verteilung zu sein.
Die Frage ist, warum wir erwarten würden, dass diese bestimmte Verteilung in der Natur verbreitet ist, und warum wird sie so oft als Annäherung verwendet, selbst wenn die tatsächlichen Daten nicht genau dieser Verteilung folgen? (Es wird häufig festgestellt, dass reale Daten einen "fetten Schwanz" haben, dh Werte, die weit vom Mittelwert entfernt sind, sind viel häufiger als die normale Verteilung vorhersagen würde).
Was ist anders ausgedrückt das Besondere an der Normalverteilung?
Die Norm hat viele "nette" statistische Eigenschaften (siehe zB https://en.wikipedia.org/wiki/Central_limit_theorem ), aber die relevanteste IMO ist die Tatsache, dass die "maximale Entropiefunktion" für jede Verteilung mit ein gegebener Mittelwert und Varianz. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution
Um dies in gewöhnlicher Sprache auszudrücken, müssen Sie eine Normalverteilung zeichnen, wenn Sie nur den Mittelwert (Mittelpunkt) und die Varianz (Breite) einer Verteilung angeben und davon nichts anderes annehmen. Alles andere erfordert zusätzliche Informationen (im Sinne der Shannon-Informationstheorie ), zum Beispiel Schiefe, um sie zu bestimmen.
Das Prinzip der maximalen Entropie wurde von ET Jaynes eingeführt, um vernünftige Prioritäten in der Bayes'schen Folgerung zu bestimmen, und ich denke, er war der erste, der auf diese Eigenschaft aufmerksam machte.
Weitere Informationen finden Sie hier: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf
quelle
Die Normalverteilung (auch bekannt als " Gaußsche Verteilung ") hat eine solide mathematische Grundlage. Der zentrale Grenzwertsatz besagt, dass, wenn Sie eine endliche Menge von n unabhängigen und identisch verteilten Zufallsvariablen mit einem bestimmten Mittelwert und einer bestimmten Varianz haben und den Durchschnitt dieser Zufallsvariablen nehmen, die Verteilung des Ergebnisses zu einer Gaußschen Verteilung als n konvergiert geht bis ins Unendliche. Hier gibt es keine Vermutungen, da die mathematische Herleitung zu dieser spezifischen Verteilungsfunktion und zu keiner anderen führt.
Um dies greifbarer zu machen, betrachten Sie eine einzelne Zufallsvariable, z. B. das Werfen einer fairen Münze (2 gleichermaßen mögliche Ergebnisse). Die Wahrscheinlichkeit, ein bestimmtes Ergebnis zu erzielen, beträgt 1/2 für Kopf und 1/2 für Zahl.
Wenn Sie die Anzahl der Münzen erhöhen und die Gesamtzahl der mit jedem Versuch erhaltenen Köpfe verfolgen, erhalten Sie eine Binomialverteilung , die ungefähr die Form einer Glocke hat. Zeichnen Sie einfach die Anzahl der Köpfe entlang der x-Achse und wie oft Sie so viele Köpfe entlang der y-Achse gespiegelt haben.
Je mehr Münzen Sie verwenden und je öfter Sie die Münzen umwerfen, desto näher kommt der Graph dem Aussehen einer Gaußschen Glockenkurve. Das ist es, was der zentrale Grenzwertsatz behauptet.
Das Erstaunliche ist, dass der Satz nicht davon abhängt, wie die Zufallsvariablen tatsächlich verteilt sind, solange jede der Zufallsvariablen dieselbe Verteilung hat. Eine Schlüsselidee in dem Theorem ist, dass Sie die Zufallsvariablen addieren oder mitteln . Ein weiteres Schlüsselkonzept ist, dass der Satz die mathematische Grenze beschreibt , wenn die Anzahl der Zufallsvariablen immer größer wird. Je mehr Variablen Sie verwenden, desto näher nähert sich die Verteilung einer Normalverteilung.
Ich empfehle Ihnen, einen Kurs in Mathematischer Statistik zu belegen, wenn Sie sehen möchten, wie Mathematiker festgestellt haben, dass die Normalverteilung tatsächlich die mathematisch korrekte Funktion für die Glockenkurve ist.
quelle
Es gibt einige ausgezeichnete Antworten auf diesen Thread. Ich kann nicht anders, als das Gefühl zu haben, dass der OP nicht die gleiche Frage stellte, die jeder beantworten möchte. Ich verstehe das jedoch, weil dies beinahe eine der aufregendsten Fragen ist, die es zu beantworten gilt. Ich habe es tatsächlich gefunden, weil ich gehofft hatte, jemand hätte die Frage "Woher wissen wir, dass das normale PDF ein PDF ist?" und ich habe danach gesucht. Aber ich denke, die Antwort auf die Frage könnte darin bestehen, den Ursprung der Normalverteilung aufzuzeigen.
Wenn ich jetzt 100 Münzen auf den Boden lege und zähle, wie viele Köpfe ich bekomme, zähle ich vielleicht 0 Köpfe oder ich zähle vielleicht 100 Köpfe, aber ich zähle viel wahrscheinlicher eine Zahl irgendwo dazwischen. Sehen Sie, warum dieses Histogramm glockenförmig sein sollte?
quelle
Erwähnen würde auch Maxwell-Herschel-Ableitung der unabhängigen multivariaten Normalverteilung aus zwei Annahmen:
Die Verteilung wird durch die Drehung des Vektors nicht beeinflusst.
Komponenten des Vektors sind unabhängig.
Hier ist die Ausstellung von Jaynes
quelle