Großes Bild:
Ich versuche zu verstehen, wie das Erhöhen der Stichprobengröße die Leistung eines Experiments erhöht. Die Folien meines Dozenten erläutern dies mit einem Bild von 2 Normalverteilungen, eine für die Nullhypothese und eine für die Alternativhypothese und einer Entscheidungsschwelle c dazwischen. Sie argumentieren, dass eine zunehmende Stichprobengröße die Varianz verringert und dadurch eine höhere Kurtosis verursacht, wodurch der gemeinsame Bereich unter den Kurven und damit die Wahrscheinlichkeit eines Fehlers vom Typ II verringert wird.
Kleines Bild:
Ich verstehe nicht, wie eine größere Stichprobe die Varianz verringert.
Ich gehe davon aus, dass Sie nur die Stichprobenvarianz berechnen und als Parameter in einer Normalverteilung verwenden.
Ich habe es versucht:
- googeln , aber die meisten akzeptierten Antworten haben 0 positive Stimmen oder sind nur Beispiele
- Denken : Nach dem Gesetz der großen Zahlen sollte sich jeder Wert nach der von uns angenommenen Normalverteilung irgendwann um seinen wahrscheinlichen Wert stabilisieren. Und die Varianz sollte daher zur Varianz unserer angenommenen Normalverteilung konvergieren. Aber was ist die Varianz dieser Normalverteilung und ist sie ein Mindestwert, dh können wir sicher sein, dass unsere Stichprobenvarianz auf diesen Wert abfällt ?
Antworten:
Die Standardabweichungen der Durchschnittswerte sind kleiner als die Standardabweichungen der einzelnen Beobachtungen. [Ich gehe hier von unabhängigen, identisch verteilten Beobachtungen mit endlicher Populationsvarianz aus; Ähnliches kann gesagt werden, wenn man die ersten beiden Bedingungen entspannt.]
Dies ist eine Folge der einfachen Tatsache, dass die Standardabweichung der Summe zweier Zufallsvariablen kleiner ist als die Summe der Standardabweichungen (sie kann nur gleich sein, wenn die beiden Variablen perfekt korreliert sind).
Wenn es sich um nicht korrelierte Zufallsvariablen handelt, können wir etwas Spezifischeres sagen: Die Varianz einer Variablensumme ist die Summe ihrer Varianzen.
Dies bedeutet, dass bei unabhängigen (oder auch nur unkorrelierten) Variationen mit derselben Verteilung die Varianz des Mittelwerts die Varianz eines Individuums dividiert durch die Stichprobengröße ist .n
Entsprechend ist bei unabhängigen (oder auch nur unkorrelierten) Variationen mit derselben Verteilung die Standardabweichung ihres Mittelwerts die Standardabweichung eines Individuums dividiert durch die Quadratwurzel des Stichprobenumfangs:n
Wenn Sie also mehr Daten hinzufügen, erhalten Sie immer genauere Schätzungen der Gruppenmittelwerte. Ein ähnlicher Effekt tritt bei Regressionsproblemen auf.
Da wir durch Erhöhen des Stichprobenumfangs genauere Schätzungen von Durchschnitten erhalten, können wir Mittelwerte, die nahe beieinander liegen, leichter unterscheiden - auch wenn sich die Verteilungen ein wenig überlappen, indem wir einen großen Stichprobenumfang nehmen, können wir sie dennoch schätzen Bevölkerung bedeutet genau genug, um zu sagen, dass sie nicht gleich sind.
quelle
Die Variabilität, die schrumpft, wenn N zunimmt, ist die Variabilität des Stichprobenmittelwerts, die häufig als Standardfehler ausgedrückt wird. Oder anders ausgedrückt, die Sicherheit der Richtigkeit des Stichprobenmittelwerts nimmt zu.
Stellen Sie sich vor, Sie führen ein Experiment durch, bei dem Sie 3 Männer und 3 Frauen sammeln und ihre Höhe messen. Wie sicher sind Sie, dass die Durchschnittshöhen jeder Gruppe die wahren Durchschnittswerte der unterschiedlichen Bevölkerungsgruppen von Männern und Frauen sind? Ich sollte denken, dass Sie überhaupt nicht sehr sicher wären. Sie könnten leicht neue Proben von 3 sammeln und mehrere Zentimeter von den ersten neue Mittelwerte finden. Nicht wenige dieser wiederholten Experimente könnten sogar dazu führen, dass Frauen größer als Männer sind, da die Mittel so unterschiedlich wären. Mit einem niedrigen N haben Sie nicht viel Gewissheit über den Mittelwert der Stichprobe und dieser variiert stark zwischen den Stichproben.
Stellen Sie sich nun 10.000 Beobachtungen in jeder Gruppe vor. Es wird ziemlich schwierig sein, neue Proben von 10.000 zu finden, deren Mittelwerte sich stark voneinander unterscheiden. Sie sind viel weniger variabel und Sie sind sich ihrer Genauigkeit sicherer.
Hier ist eine kleine Simulation in R, um die Beziehung zwischen einem Standardfehler und der Standardabweichung des Mittels vieler vieler Replikationen des anfänglichen Experiments zu demonstrieren. In diesem Fall beginnen wir mit einem Populationsmittel von 100 und einer Standardabweichung von 15.
Beachten Sie, dass die endgültige Standardabweichung in der Nähe des theoretischen Standardfehlers liegt. Wenn Sie hier mit der Variablen n spielen, können Sie sehen, dass das Variabilitätsmaß mit zunehmendem Wert von n kleiner wird.
[Abgesehen davon ändert sich die Kurtosis in den Diagrammen nicht wirklich (vorausgesetzt, es handelt sich um Normalverteilungen). Durch Verringern der Varianz wird die Kurtosis nicht verändert, aber die Verteilung wird enger. Die einzige Möglichkeit, die Veränderungen der Kurtosis visuell zu untersuchen, besteht darin, die Verteilungen auf die gleiche Skala zu bringen.]
quelle
Wenn Sie wissen wollen, wie viel amerikanische Staatsbürger durchschnittlich wiegen, bitten Sie im Idealfall jeden Staatsbürger, sofort auf die Waage zu treten und die Daten zu sammeln. Sie würden eine genaue Antwort bekommen. Das ist sehr schwierig. Vielleicht können Sie ein paar Bürger dazu bringen, die Waage zu betreten, den Durchschnitt zu berechnen und eine Vorstellung davon zu bekommen, wie hoch der Durchschnitt der Bevölkerung ist. Würden Sie erwarten, dass der Stichprobendurchschnitt genau dem Bevölkerungsdurchschnitt entspricht? Ich hoffe nicht.
Würden Sie zustimmen, dass wir uns irgendwann der Bevölkerungszahl nähern würden, wenn Sie mehr und mehr Menschen hätten? Wir sollten, richtig? Am Ende können wir höchstens die gesamte Bevölkerung erreichen, und das Mittel ist das, wonach wir suchen. Das ist die Intuition.
Dies war ein idealisiertes Gedankenexperiment. In Wirklichkeit gibt es Komplikationen. Ich gebe dir zwei.
quelle
Ich glaube, dass das Gesetz der großen Zahlen erklärt, warum die Varianz (Standardfehler) abnimmt, wenn die Stichprobengröße zunimmt. Der Wikipedia-Artikel dazu lautet:
In Bezug auf den zentralen Grenzwertsatz:
Wenn Sie eine einzelne Zufallsstichprobe ziehen, ist der Mittelwert der Stichprobe umso näher am Mittelwert der Grundgesamtheit (im obigen Zitat stellen Sie sich "Anzahl der Versuche" als "Stichprobengröße" vor, sodass jeder "Versuch" eine Beobachtung ist ). Daher ist beim Zeichnen einer unendlichen Anzahl von Zufallsstichproben die Varianz der Stichprobenverteilung umso geringer, je größer die Größe jeder Stichprobe ist.
Mit anderen Worten, die Glockenform wird enger, wenn jede Probe groß statt klein ist, da auf diese Weise jeder Probenmittelwert näher an der Mitte der Glocke liegt.
quelle
Mit zunehmender Stichprobengröße nimmt die Stichprobenvarianz (Variation zwischen Beobachtungen) zu, die Varianz des Stichprobenmittelwerts (Standardfehler) nimmt jedoch ab und damit die Genauigkeit.
quelle