In meiner Kalkülklasse sind wir auf die Funktion oder die "Glockenkurve" gestoßen , und mir wurde gesagt, dass sie in der Statistik häufig angewendet wird.
Aus Neugier möchte ich fragen: Ist die Funktion in der Statistik wirklich wichtig? Wenn ja, warum ist so nützlich, und wie sehen einige seiner Anwendungen aus? e - x 2
Ich konnte nicht viele Informationen über die Funktion im Internet finden, aber nach einigen Recherchen fand ich einen Zusammenhang zwischen Glockenkurven im Allgemeinen und etwas, das als Normalverteilung bezeichnet wird . Eine Wikipedia-Seite verknüpft diese Art von Funktionen mit einer Statistikanwendung, wobei ich Folgendes hervorhole:
"Die Normalverteilung wird als die bekannteste Wahrscheinlichkeitsverteilung in der Statistik angesehen. Dafür gibt es mehrere Gründe: 1 Erstens ergibt sich die Normalverteilung aus dem zentralen Grenzwertsatz, der besagt, dass unter milden Bedingungen die Summe einer großen Anzahl von Zufallsvariablen gezogen wird von der gleichen Verteilung wird ungefähr normal verteilt, unabhängig von der Form der ursprünglichen Verteilung . "
Wenn ich also eine große Datenmenge aus einer Art Umfrage oder ähnlichem sammle, könnten sie gleichmäßig auf eine Funktion wie ? Die Funktion ist symmetrisch, also ist ihre Symmetrie, dh ihre Nützlichkeit für die Normalverteilung, was macht sie in der Statistik so nützlich? Ich spekuliere nur.
Was macht in der Statistik im Allgemeinen nützlich? Wenn Normalverteilung der einzige Bereich ist, was macht einzigartig oder besonders nützlich unter anderen Gaußschen Typfunktionen in der Normalverteilung? e - x 2
quelle
Antworten:
Der Grund, warum diese Funktion wichtig ist, ist in der Tat die Normalverteilung und ihr eng verbundener Begleiter, der zentrale Grenzwertsatz (wir haben hier einige gute Erklärungen für die CLT in anderen Fragen ).
In der Statistik kann die CLT normalerweise verwendet werden, um Wahrscheinlichkeiten ungefähr zu berechnen, wobei Aussagen wie "Wir sind zu 95% zuversichtlich, dass ..." möglich sind (die Bedeutung von "95% zuversichtlich" wird oft missverstanden, aber das ist eine andere Sache).
Die Funktion ist (eine skalierte Version von) die Dichtefunktion der Normalverteilung. Wenn eine Zufallsgröße mit der Normalverteilung modelliert werden kann, beschreibt diese Funktion, wie wahrscheinlich unterschiedliche mögliche Werte dieser Größe sind. Ergebnisse in Regionen mit hoher Dichte sind wahrscheinlicher als Ergebnisse in Regionen mit niedriger Dichte.exp( - ( x - μ )22 σ2)
und σ sind Parameter, die den Ort und den Maßstab der Dichtefunktion bestimmen. Es ist symmetrisch um μ , so ändert μ bedeutetdass Sie die Funktion nach rechts verschieben oder nach links. σ bestimmt den Wert der Dichtefunktion bei ihrem Maximum ( x = μ ) und wie schnell sie auf 0 geht, wenn sich x von μ entfernt . In diesem Sinneändert dasÄndern von σ den Maßstab der Funktion.μ σ μ μ σ x = μ x μ σ
Für die spezielle Wahl gilt und σ = 1 / √μ = 0 Die Dichte ist (proportional zu)e - x 2 . Dies ist keine besonders interessante Auswahl dieser Parameter, hat jedoch den Vorteil, dass eine Dichtefunktion erhalten wird, die etwas einfacher aussieht als alle anderen.σ= 1 / 2-√ e- x2
Andererseits können wir von zu jeder anderen normalen Dichte übergehen, indem wir die Variablen x = u - μ änderne- x2 . Der Grund, dass Ihr Lehrbuch sagt, dasse-x2und nichtexp(-(x-μ)2x = u - μ2√σ e- x2 , ist eine sehr wichtige Funktion, dasse-x2einfacher zu schreiben ist.exp( - ( x - μ )22 σ2) e- x2
quelle
Und die Normalverteilung ist vor allem deshalb wichtig, weil sich ("unter milden Gleichmäßigkeitsbedingungen") die Summe vieler unabhängiger und gleichverteilter Zufallsvariablen der Normalverteilung annähert, wenn sich "viele" der Unendlichkeit nähern.
Nicht alles ist normal verteilt. Zum Beispiel sind Ihre Umfrageergebnisse möglicherweise nicht, zumindest wenn die Antworten nicht gleichmäßig verteilt sind, sondern so etwas wie Ganzzahlen 1–5. Der Mittelwert der Ergebnisse wird jedoch normalerweise auf wiederholte Stichproben verteilt, da der Mittelwert nur eine skalierte (normalisierte) Summe ist und die einzelnen Antworten voneinander unabhängig sind. Vorausgesetzt, die Stichprobe ist groß genug, erscheint die Normalität streng genommen erst dann, wenn die Stichprobengröße unendlich wird.
Wie Sie dem Beispiel entnehmen können, kann die Normalverteilung als Ergebnis des Schätzungs- oder Modellierungsprozesses auftreten, auch wenn die Daten nicht normal verteilt sind. Normalverteilungen sind daher in der Statistik allgegenwärtig. In der Bayes'schen Statistik sind viele hintere Verteilungen von Parametern annähernd normal oder können als normal angenommen werden.
quelle
quelle