Warum funktioniert der zentrale Grenzwertsatz mit einer einzelnen Stichprobe?

Mir wurde immer beigebracht, dass die CLT funktioniert, wenn Sie die Probenahme wiederholt haben, wobei jede Probe groß genug ist. Stellen Sie sich zum Beispiel vor, ich habe ein Land mit 1.000.000 Einwohnern. Mein Verständnis von CLT ist, dass selbst wenn die Verteilung ihrer Höhen nicht normal war, wenn ich 1000 Proben von 50 Personen nahm (dh 1000 Umfragen mit jeweils 50 Bürgern durchführte), dann ihre mittlere Größe für jede Probe berechnet wurde, die Verteilung dieser Stichprobe Mittel wäre normal.

Ich habe jedoch noch nie einen Fall aus der Praxis gesehen, in dem Forscher wiederholt Proben entnommen haben. Stattdessen nehmen sie eine große Stichprobe (dh befragen 50.000 Bürger über ihre Größe) und arbeiten daraus.

Warum lehren Statistikbücher wiederholte Stichproben und in der realen Welt führen Forscher nur eine einzige Stichprobe durch?

Bearbeiten: Der reale Fall, über den ich nachdenke, besteht darin, Statistiken über einen Datensatz von 50.000 Twitter-Benutzern zu erstellen. Dieser Datensatz ist offensichtlich keine wiederholte Stichprobe, sondern nur eine große Stichprobe von 50.000.

sampling central-limit-theorem Anton
quelle

Die Entnahme einer Probe von 1000 von 50.000 Proben entspricht fast der Entnahme von 1000 Einzelproben unabhängig von 50.000. Je kleiner die Stichprobe (oder größer das Universum) ist, desto ähnlicher sehen sie sich.

Thomas Ahle

$n\to\infty$ $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

$n=50$ $n=50,000$

$\bar{X}$

Genau genommen demonstriert dies nicht die CLT, sondern näher an der Demonstration des Berry-Esseen-Theorems, da es etwas über die Geschwindigkeit zeigt, mit der der Ansatz zur Normalität eintritt - aber das würde uns wiederum zur CLT führen, also so dient als Motivation (und tatsächlich kommt so etwas wie das Berry-Esseen oft näher an das heran, was die Leute eigentlich in endlichen Stichproben verwenden wollen, so dass Motivation in der Praxis in gewissem Sinne nützlicher sein kann als der zentrale Grenzwertsatz selbst). .

Die Verteilung dieser Probenmittel wäre normal.

Nun, nein, sie wären nicht normal, aber in der Praxis wären sie sehr nahe am Normalen (Höhen sind etwas schief, aber nicht sehr schief).

$n=50$

Der reale Fall, über den ich nachdenke, ist die Erstellung von Statistiken zu einem Datensatz von 50.000 Twitter-Nutzern. Dieser Datensatz ist offensichtlich keine wiederholte Stichprobe, sondern nur eine große Stichprobe von 50.000.

Bei vielen Verteilungen würde ein Stichprobenmittelwert von 50.000 Elementen sehr nahe an einer Normalverteilung liegen - es ist jedoch nicht garantiert, dass Sie selbst bei n = 50.000 sehr nahe an einer Normalverteilung liegen (wenn die Verteilung der einzelnen Elemente ausreichend ist Beispielsweise kann die Verteilung der Probenmittel immer noch schief genug sein, um eine normale Annäherung unhaltbar zu machen.

(Der Berry-Esseen-Satz würde uns veranlassen, vorauszusehen, dass genau dieses Problem auftreten könnte - und dies ist nachweislich der Fall. Es ist einfach, Beispiele zu nennen, für die die CLT gilt, für die n = 50.000 jedoch bei weitem nicht groß genug ist standardisierte Stichprobe bedeutet nahezu normal.)

Glen_b - Monica neu starten
quelle

Um zu überprüfen, ob 50.000 groß genug sind, könnte man beispielsweise eine Simulation in R durchführen, richtig? Ich würde den Mittelwert und die Standardabweichung der Stichprobe verwenden, aber wie würde ich sicherstellen, dass aus derselben Verteilung meiner Stichprobe simuliert wird?

Amonet

Genau genommen müssen Sie aus der Bevölkerungsverteilung simulieren. Sie könnten die Verteilung Ihrer Stichprobe als Schätzung der Bevölkerungsverteilung behandeln (dies entspricht dem Bootstrapping) - dies ist jedoch für einen solchen Zweck nicht ausreichend. Betrachten Sie als Beispiel, ob Sie eine Probe aus einer Cauchy-Verteilung gezogen und diese dann durch Ersetzen erneut abgetastet haben. (für immer größere Proben), bis die Verteilung der neu abgetasteten Mittel "ausreichend normal" erscheint. Sie werden immer zu dem Schluss kommen, dass eine begrenzte Stichprobengröße ausreicht, aber in Wahrheit würde dies niemals der Fall sein.

Glen_b -State Monica

Warum funktioniert der zentrale Grenzwertsatz mit einer einzelnen Stichprobe?

Antworten: