Ich habe irgendwo gelesen, dass der Grund, warum wir die Differenzen quadrieren, anstatt absolute Werte bei der Berechnung der Varianz zu verwenden, darin besteht, dass die Varianz, die auf die übliche Weise mit Quadraten im Nominator definiert wird, im zentralen Grenzwertsatz eine einzigartige Rolle spielt.
Was genau ist dann die Rolle der Varianz bei der CLT? Ich konnte nicht mehr darüber finden oder es richtig verstehen.
Wir könnten auch fragen, warum wir glauben, dass Varianz ein Maß dafür ist, wie weit eine Reihe von Zahlen verteilt ist. Ich könnte andere Größen definieren, ähnlich der Varianz, und Sie davon überzeugen, dass sie die Streuung von Zahlen messen. Dazu müssten Sie angeben, was genau unter Streuung von Zahlen zu verstehen ist, welches Verhalten Sie vom Maß für die Streuung erwarten usw. Es gibt keine formale Definition der Streuung, daher können wir Varianz als Definition behandeln. Aus irgendeinem Grund wird die Varianz jedoch als das beste Maß für die Streuung angesehen.
quelle
Antworten:
Die klassische Anweisung des zentralen Grenzwertsatzes (CLT) betrachtet eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit gemeinsamem Verteiler F . Diese Sequenz modelliert die Situation, mit der wir beim Entwerfen eines Stichprobenprogramms oder Experiments konfrontiert sind: Wenn wir n unabhängige Beobachtungen desselben zugrunde liegenden Phänomens erhalten können, dann ist die endliche Sammlung X 1 , X 2 , … , X nX.1, X.2, … , X.n, … F. n X.1, X.2, … , X.n modelliert die erwarteten Daten. Das Zulassen, dass die Sequenz unendlich ist, ist eine bequeme Möglichkeit, beliebig große Stichprobengrößen zu betrachten.
Verschiedene Gesetze großer Zahlen behaupten, dass der Mittelwert
wird sich mit hoher Wahrscheinlichkeit der Erwartung von , μ ( F ) nähern , vorausgesetzt, F hat tatsächlich eine Erwartung. (Nicht alle Verteilungen tun dies.) Dies impliziert, dass die Abweichung m ( X 1 , X 2 , … , X n ) - μ ( F ) (die in Abhängigkeit von diesen n Zufallsvariablen auch eine Zufallsvariable ist) dazu neigt kleiner werden als nF. μ ( F.) F. m ( X.1, X.2, … , X.n) - μ ( F.) n n erhöht sich. Das CLT fügt dies auf eine viel spezifischere Weise hinzu: Es besagt (unter einigen Bedingungen, die ich unten diskutieren werde), dass, wenn wir diese Abweichung um , es wird eine VerteilungsfunktionFn haben, die sicheinerNormalverteilungsfunktion mit dem Mittelwert Nullnähert,wennngroß wird. (Meine Antwort unterhttps://stats.stackexchange.com/a/3904versucht zu erklären, warum dies so ist und warum der Faktor √n- -- -√ F.n n ist das richtige.)n- -- -√
Dies ist keine Standardanweisung des CLT. Verbinden wir es mit dem üblichen. Diese begrenzende Normalverteilung mit dem Mittelwert Null wird vollständig durch einen zweiten Parameter bestimmt, der normalerweise als Maß für seine Streuung (natürlich!) Ausgewählt wird, wie z. B. seine Varianz oder Standardabweichung. Sei seine Varianz. Sicherlich muss es eine Beziehung zu einer ähnlichen Eigenschaft von F haben . Um herauszufinden , was dies sein könnte, lasse F eine Varianz τ 2 haben, die übrigens unendlich sein könnte. Unabhängig davon, da die X i unabhängig sind, berechnen wir leicht die Varianz der Mittelwerte:σ2 F. F. τ2 X.ich
Folglich ist die Varianz der standardisierten Residuen gleich :es ist konstant. Die Varianz der begrenzenden Normalverteilung muss also selbstτ2sein. (Dies zeigt sofort, dass der Satz nur gelten kann, wennτ2endlich ist: das ist die zusätzliche Annahme, die ich zuvor beschönigt habe.)τ2/n×(n−−√)2=τ2 τ2 τ2
(Wenn wir ein anderes Maß für die Ausbreitung von uns immer noch gelungen, es mit σ 2 zu verbinden , aber wir hätten nicht festgestellt, dass das entsprechende Maß für die Ausbreitung der standardisierten mittleren Abweichung für alle n konstant ist , was sehr schön ist - wenn auch unwesentlich - Vereinfachung.)F σ2 n
Wenn wir es uns gewünscht hätten, hätten wir die mittleren Abweichungen die ganze Zeit standardisieren können, indem wir sie durch dividiert und mit √ multipliziert hättenτ . Dies hätte sichergestellt, dass die GrenzverteilungStandardnormalmit Einheitsvarianz ist. Ob Sie sich dafür entscheiden,auf diese Weisedurchτzu standardisierenoder nicht, ist wirklich Geschmackssache: Es ist der gleiche Satz und am Ende die gleiche Schlussfolgerung. Was zählte, war die Multiplikation mit √n−−√ τ .n−−√
Beachten Sie, dass Sie die Abweichungen mit einem anderen Faktor als √ multiplizieren können . Sie könnten √ verwendenn−−√ , odern 1 / 2 + 1 / n , oder irgendetwas anderesdass asymptotisch verhält sich wie √n−−√+exp(−n) n1/2+1/n n−−√ σ2 0 ∞
quelle
Varianz ist für zentrale Grenzwertsätze NICHT wesentlich. Es ist wesentlich für die Gartenvielfalt Anfänger-ID, Central Limit Theorem, die die meisten Leute kennen und lieben, verwenden und missbrauchen.
Es gibt nicht "den" zentralen Grenzwertsatz, es gibt viele zentrale Grenzwertsätze:
Der iid Central Limit Theorem für Anfänger der Gartensorte. Selbst hier kann eine vernünftige Wahl der Normierungskonstante (also eine fortgeschrittene Variante der CLT für Anfänger) den Nachweis zentraler Grenzwertsätze für bestimmte Zufallsvariablen mit unendlicher Varianz ermöglichen (siehe Feller Vol. II http://www.amazon.com/Introduction) -Probability-Theory-Applications-Edition / dp / 0471257095 S. 260).
Das dreieckige Array Lindeberg-Feller Central Limit Theorem. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .
Die wilde Welt von allem geht alles in Sichtweite abhängig von zentralen Grenzwertsätzen, für die Varianz nicht einmal existieren muss. Ich habe einmal einen zentralen Grenzwertsatz bewiesen, für den nicht nur keine Varianz existierte, sondern auch kein Mittelwert, und tatsächlich nicht einmal ein 1-Epsilon-Moment für Epsilon willkürlich klein positiv. Das war ein haariger Beweis, weil es "kaum" konvergierte und dies sehr langsam tat. Asymptotisch konvergierte es zu einer Normalen. In Wirklichkeit wäre eine Stichprobengröße von Millionen von Begriffen erforderlich, damit die Normalen eine gute Annäherung darstellen.
quelle
Was das beste Maß für die Verbreitung ist, hängt von der Situation ab. Die Varianz ist ein Maß für die Streuung, das ein Parameter der Normalverteilung ist. Wenn Sie also Ihre Daten mit einer Nornalverteilung modellieren, sind der (arithmetische) Mittelwert und die empirische Varianz die besten Schätzer (sie sind "ausreichend") für die Parameter dieser Normalverteilung. Dies gibt auch die Verbindung zum zentralen Grenzwertsatz, da es sich um eine Normalgrenze handelt, dh die Grenze ist eine Normalverteilung. Wenn Sie also genügend Beobachtungen haben, dass der zentrale Grenzwertsatz relevant ist, können Sie wieder die Normalverteilung verwenden, und die empirische Varianz ist die natürliche Beschreibung der Variabilität, da sie an die Normalverteilung gebunden ist.
Ohne diese Verknüpfung mit der Normalverteilung gibt es keinen Sinn, in dem die Varianz am besten ist, oder sogar einen natürlichen Deskriptor der Variabilität.
quelle
Nur die zweite Frage ansprechen:
Ich denke, dass Varianz für die meisten Statistiker das Streuungsmaß der Wahl war, hauptsächlich aus historischen Gründen und dann wegen der Trägheit für die meisten Nicht-Statistiker.
Eine große Menge kleiner Abweichungen (sowohl positive als auch negative) mit wenigen großen Abweichungen sind Merkmale einer geringen Dispersion, die ein relativ kleines, gleichmäßiges zentrales Moment ergibt. Viele große Abweichungen ergeben ein relativ großes, sogar zentrales Moment.
Erinnerst du dich, als ich über die historischen Gründe oben sagte? Bevor Rechenleistung billig und verfügbar wurde, musste man sich nur auf mathematische, analytische Fähigkeiten verlassen, um statistische Theorien zu entwickeln.
quelle