Die Rolle der Varianz im zentralen Grenzwertsatz

10

Ich habe irgendwo gelesen, dass der Grund, warum wir die Differenzen quadrieren, anstatt absolute Werte bei der Berechnung der Varianz zu verwenden, darin besteht, dass die Varianz, die auf die übliche Weise mit Quadraten im Nominator definiert wird, im zentralen Grenzwertsatz eine einzigartige Rolle spielt.

Was genau ist dann die Rolle der Varianz bei der CLT? Ich konnte nicht mehr darüber finden oder es richtig verstehen.

Wir könnten auch fragen, warum wir glauben, dass Varianz ein Maß dafür ist, wie weit eine Reihe von Zahlen verteilt ist. Ich könnte andere Größen definieren, ähnlich der Varianz, und Sie davon überzeugen, dass sie die Streuung von Zahlen messen. Dazu müssten Sie angeben, was genau unter Streuung von Zahlen zu verstehen ist, welches Verhalten Sie vom Maß für die Streuung erwarten usw. Es gibt keine formale Definition der Streuung, daher können wir Varianz als Definition behandeln. Aus irgendeinem Grund wird die Varianz jedoch als das beste Maß für die Streuung angesehen.

user4205580
quelle
Ich habe speziell versucht, diese Frage in meiner Antwort unter stats.stackexchange.com/a/3904/919 zu beantworten .
whuber
1
Jetzt erinnere ich mich, dass ich Ihre Antwort schon einmal gesehen habe, aber das Problem ist, dass ich das Wort "Varianz" in Ihrer Antwort nicht wirklich finden kann. Welcher Teil erklärt das Problem genau? Vielleicht sollte ich es noch einmal lesen.
user4205580
3
Suchen Sie nach "SD", was der Varianz und dem Begriff "Skalierungsfaktor" entspricht. Der (ziemlich tiefe) Punkt hier ist, dass die Varianz selbst keine eindeutige Wahl ist: Für jede gegebene Verteilung können Sie (fast) jedes Maß für die Streuung wählen, das Sie mögen! Unter der Annahme, dass dieses Maß zur Streuung der zugrunde liegenden Verteilung konvergiert, ist es wirklich wichtig, dass Sie bei der Standardisierung der Summe (oder des Mittelwerts) von iid-Stichproben aus dieser Verteilung die Streuung um einen asymptotisch um berechneten Faktor neu skalieren müssenn . Auf diese Weise erreichen Sie eine begrenzende Normalverteilung. n
whuber

Antworten:

8

Die klassische Anweisung des zentralen Grenzwertsatzes (CLT) betrachtet eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit gemeinsamem Verteiler F . Diese Sequenz modelliert die Situation, mit der wir beim Entwerfen eines Stichprobenprogramms oder Experiments konfrontiert sind: Wenn wir n unabhängige Beobachtungen desselben zugrunde liegenden Phänomens erhalten können, dann ist die endliche Sammlung X 1 , X 2 , , X nX1,X2,,Xn,FnX1,X2,,Xnmodelliert die erwarteten Daten. Das Zulassen, dass die Sequenz unendlich ist, ist eine bequeme Möglichkeit, beliebig große Stichprobengrößen zu betrachten.

Verschiedene Gesetze großer Zahlen behaupten, dass der Mittelwert

m(X.1,X.2,,X.n)=1n(X.1+X.2++X.n)

wird sich mit hoher Wahrscheinlichkeit der Erwartung von , μ ( F ) nähern , vorausgesetzt, F hat tatsächlich eine Erwartung. (Nicht alle Verteilungen tun dies.) Dies impliziert, dass die Abweichung m ( X 1 , X 2 , , X n ) - μ ( F ) (die in Abhängigkeit von diesen n Zufallsvariablen auch eine Zufallsvariable ist) dazu neigt kleiner werden als nF.μ(F.)F.m(X.1,X.2,,X.n)- -μ(F.)nnerhöht sich. Das CLT fügt dies auf eine viel spezifischere Weise hinzu: Es besagt (unter einigen Bedingungen, die ich unten diskutieren werde), dass, wenn wir diese Abweichung um , es wird eine VerteilungsfunktionFn haben, die sicheinerNormalverteilungsfunktion mit dem Mittelwert Nullnähert,wennngroß wird. (Meine Antwort unterhttps://stats.stackexchange.com/a/3904versucht zu erklären, warum dies so ist und warum der FaktornF.nn ist das richtige.)n

Dies ist keine Standardanweisung des CLT. Verbinden wir es mit dem üblichen. Diese begrenzende Normalverteilung mit dem Mittelwert Null wird vollständig durch einen zweiten Parameter bestimmt, der normalerweise als Maß für seine Streuung (natürlich!) Ausgewählt wird, wie z. B. seine Varianz oder Standardabweichung. Sei seine Varianz. Sicherlich muss es eine Beziehung zu einer ähnlichen Eigenschaft von F haben . Um herauszufinden , was dies sein könnte, lasse F eine Varianz τ 2 haben, die übrigens unendlich sein könnte. Unabhängig davon, da die X i unabhängig sind, berechnen wir leicht die Varianz der Mittelwerte:σ2F.F.τ2X.ich

Var(m(X1,X2,,Xn))=Var(1n(X1+X2++Xn))=(1n)2(Var(X1)+Var(X2)++Var(Xn))=(1n)2(τ2+τ2++τ2)=τ2n.

Folglich ist die Varianz der standardisierten Residuen gleich :es ist konstant. Die Varianz der begrenzenden Normalverteilung muss also selbstτ2sein. (Dies zeigt sofort, dass der Satz nur gelten kann, wennτ2endlich ist: das ist die zusätzliche Annahme, die ich zuvor beschönigt habe.)τ2/n×(n)2=τ2τ2τ2

(Wenn wir ein anderes Maß für die Ausbreitung von uns immer noch gelungen, es mit σ 2 zu verbinden , aber wir hätten nicht festgestellt, dass das entsprechende Maß für die Ausbreitung der standardisierten mittleren Abweichung für alle n konstant ist , was sehr schön ist - wenn auch unwesentlich - Vereinfachung.)Fσ2n

Wenn wir es uns gewünscht hätten, hätten wir die mittleren Abweichungen die ganze Zeit standardisieren können, indem wir sie durch dividiert und mit multipliziert hättenτ . Dies hätte sichergestellt, dass die GrenzverteilungStandardnormalmit Einheitsvarianz ist. Ob Sie sich dafür entscheiden,auf diese Weisedurchτzu standardisierenoder nicht, ist wirklich Geschmackssache: Es ist der gleiche Satz und am Ende die gleiche Schlussfolgerung. Was zählte, war die Multiplikation mitnτ .n

Beachten Sie, dass Sie die Abweichungen mit einem anderen Faktor als multiplizieren können . Sie könnten √ verwendenn, odern 1 / 2 + 1 / n , oder irgendetwas anderesdass asymptotisch verhält sich wien+exp(n)n1/2+1/nnσ20

F.nF.

F.n

whuber
quelle
5

Varianz ist für zentrale Grenzwertsätze NICHT wesentlich. Es ist wesentlich für die Gartenvielfalt Anfänger-ID, Central Limit Theorem, die die meisten Leute kennen und lieben, verwenden und missbrauchen.

Es gibt nicht "den" zentralen Grenzwertsatz, es gibt viele zentrale Grenzwertsätze:

Der iid Central Limit Theorem für Anfänger der Gartensorte. Selbst hier kann eine vernünftige Wahl der Normierungskonstante (also eine fortgeschrittene Variante der CLT für Anfänger) den Nachweis zentraler Grenzwertsätze für bestimmte Zufallsvariablen mit unendlicher Varianz ermöglichen (siehe Feller Vol. II http://www.amazon.com/Introduction) -Probability-Theory-Applications-Edition / dp / 0471257095 S. 260).

Das dreieckige Array Lindeberg-Feller Central Limit Theorem. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .

Die wilde Welt von allem geht alles in Sichtweite abhängig von zentralen Grenzwertsätzen, für die Varianz nicht einmal existieren muss. Ich habe einmal einen zentralen Grenzwertsatz bewiesen, für den nicht nur keine Varianz existierte, sondern auch kein Mittelwert, und tatsächlich nicht einmal ein 1-Epsilon-Moment für Epsilon willkürlich klein positiv. Das war ein haariger Beweis, weil es "kaum" konvergierte und dies sehr langsam tat. Asymptotisch konvergierte es zu einer Normalen. In Wirklichkeit wäre eine Stichprobengröße von Millionen von Begriffen erforderlich, damit die Normalen eine gute Annäherung darstellen.

Mark L. Stone
quelle
Ist das CLT, auf das Sie hingewiesen haben, irgendwo im Internet verfügbar? Es klingt sehr interessant und ich würde es gerne lesen.
Alecos Papadopoulos
2
Es war eine Hausaufgabe in einem theoretischen Wahrscheinlichkeitskurs vor fast 35 Jahren, verloren gegen die Zeiten des Sandes. Nun, es könnte irgendwo in einer meiner Kisten sein, aber ich werde es wahrscheinlich nicht so schnell ausgraben. Ich war kaum klug genug, um es zu beweisen (mit vielen Stunden harter Prügelei), nicht annähernd klug genug, um es formuliert zu haben. Es gibt unendlich viele verschiedene zentrale Grenzwertsätze, Normierung ist der Schlüssel.
Mark L. Stone
1

Was das beste Maß für die Verbreitung ist, hängt von der Situation ab. Die Varianz ist ein Maß für die Streuung, das ein Parameter der Normalverteilung ist. Wenn Sie also Ihre Daten mit einer Nornalverteilung modellieren, sind der (arithmetische) Mittelwert und die empirische Varianz die besten Schätzer (sie sind "ausreichend") für die Parameter dieser Normalverteilung. Dies gibt auch die Verbindung zum zentralen Grenzwertsatz, da es sich um eine Normalgrenze handelt, dh die Grenze ist eine Normalverteilung. Wenn Sie also genügend Beobachtungen haben, dass der zentrale Grenzwertsatz relevant ist, können Sie wieder die Normalverteilung verwenden, und die empirische Varianz ist die natürliche Beschreibung der Variabilität, da sie an die Normalverteilung gebunden ist.

Ohne diese Verknüpfung mit der Normalverteilung gibt es keinen Sinn, in dem die Varianz am besten ist, oder sogar einen natürlichen Deskriptor der Variabilität.

kjetil b halvorsen
quelle
Es ist unklar, warum die Theorie der "besten" Schätzer (im Sinne von "am besten") einen Zusammenhang mit dem zentralen Grenzwertsatz haben sollte. Wenn man zum Beispiel eine nicht quadratische Verlustfunktion verwenden würde, wären Mittelwert und Varianz möglicherweise nicht die "besten" Schätzer der Parameter einer Normalverteilung - stattdessen könnten der Median und der IQR am besten sein.
whuber
1

Nur die zweite Frage ansprechen:

Ich denke, dass Varianz für die meisten Statistiker das Streuungsmaß der Wahl war, hauptsächlich aus historischen Gründen und dann wegen der Trägheit für die meisten Nicht-Statistiker.

E.[(X.- -μ)k]]k

E.(|X.- -μ|k)k>0k

Eine große Menge kleiner Abweichungen (sowohl positive als auch negative) mit wenigen großen Abweichungen sind Merkmale einer geringen Dispersion, die ein relativ kleines, gleichmäßiges zentrales Moment ergibt. Viele große Abweichungen ergeben ein relativ großes, sogar zentrales Moment.

Erinnerst du dich, als ich über die historischen Gründe oben sagte? Bevor Rechenleistung billig und verfügbar wurde, musste man sich nur auf mathematische, analytische Fähigkeiten verlassen, um statistische Theorien zu entwickeln.

kk=1

Marcelo Ventura
quelle