Wie entspricht die Stichprobenverteilung der Stichprobenmittelwerte dem Bevölkerungsmittelwert?

15

Ich versuche, Statistiken zu lernen, weil ich feststelle, dass sie so verbreitet sind, dass ich einige Dinge nicht lernen kann, wenn ich sie nicht richtig verstehe. Ich habe Probleme, diesen Begriff einer Stichprobenverteilung der Stichprobenmittel zu verstehen. Ich kann nicht verstehen, wie es einige Bücher und Websites erklärt haben. Ich glaube, ich habe Verständnis, bin mir aber nicht sicher, ob es korrekt ist. Unten ist mein Versuch, es zu verstehen.

Wenn wir über ein Phänomen sprechen, das eine Normalverteilung annimmt, betrifft dies im Allgemeinen (nicht immer) die Bevölkerung.

Wir möchten Inferenzstatistiken verwenden, um einige Informationen über eine bestimmte Population vorherzusagen, haben aber nicht alle Daten. Wir verwenden Zufallsstichproben und es ist ebenso wahrscheinlich, dass jede Stichprobe der Größe n ausgewählt wird.

Wir nehmen also viele Stichproben, sagen wir 100, und dann ist die Verteilung der Mittelwerte dieser Stichproben gemäß dem zentralen Grenzwertsatz ungefähr normal. Der Mittelwert der Stichprobenmittelwerte entspricht in etwa dem Bevölkerungsmittelwert.

Was ich nicht verstehe, ist, dass Sie häufig "Eine Stichprobe von 100 Personen ..." sehen. Brauchen wir nicht 10 oder 100 Stichproben von 100 Personen, um die Bevölkerung des Mittelwerts zu schätzen? Oder ist es der Fall, dass wir eine einzige Stichprobe nehmen können, die groß genug ist, sagen wir 1000, und dann sagen wir, dass der Mittelwert sich dem Mittelwert der Grundgesamtheit annähert? ODER nehmen wir eine Stichprobe von 1000 Personen und dann 100 zufällige Stichproben von 100 Personen in jeder Stichprobe von den ursprünglich 1000 Personen, die wir genommen haben, und verwenden diese dann als unsere Annäherung?

Funktioniert es immer, eine ausreichend große Stichprobe zu nehmen, um sich dem Mittelwert (fast) anzunähern? Muss die Bevölkerung überhaupt normal sein, damit dies funktioniert?

Zusammenführen, sortieren
quelle

Antworten:

9

Ich denke, Sie verwechseln möglicherweise die erwartete Stichprobenverteilung eines Mittelwerts (den wir auf der Grundlage einer einzelnen Stichprobe berechnen würden) mit dem (normalerweise hypothetischen) Prozess der Simulation dessen, was passieren würde, wenn wir wiederholt mehrere Stichproben derselben Grundgesamtheit durchführen würden.

Für jede gegebene Stichprobengröße (sogar n = 2) würden wir sagen, dass der Stichprobenmittelwert (von den beiden Personen) den Bevölkerungsmittelwert schätzt. Die Schätzgenauigkeit - das heißt, wie gut wir den Populationsmittelwert anhand unserer Stichprobendaten geschätzt haben, was sich im Standardfehler des Mittelwerts widerspiegelt - ist jedoch schlechter als bei einer 20 oder 200 Menschen in unserer Stichprobe. Dies ist relativ intuitiv (größere Stichproben ergeben eine bessere Schätzgenauigkeit).

Wir würden dann den Standardfehler verwenden, um ein Konfidenzintervall zu berechnen, das (in diesem Fall) auf der Normalverteilung basiert (wir würden wahrscheinlich die t-Verteilung in kleinen Stichproben verwenden, da die Standardabweichung der Grundgesamtheit in a oft unterschätzt wird kleine Stichprobe, was zu zu optimistischen Standardfehlern führt.)

Zur Beantwortung Ihrer letzten Frage: Nein, wir brauchen nicht immer eine normalverteilte Grundgesamtheit, um diese Schätzmethoden anzuwenden. Der zentrale Grenzwertsatz gibt an, dass die Stichprobenverteilung eines Mittelwerts (wieder geschätzt aus einer einzelnen Stichprobe) tendenziell höher ist einer Normalverteilung folgen, auch wenn die zugrunde liegende Grundgesamtheit eine nicht normale Verteilung aufweist. Dies ist normalerweise für "größere" Stichprobengrößen geeignet.

Wenn Sie jedoch eine nicht-normale Grundgesamtheit haben, aus der Sie eine Stichprobe erstellen, ist der Mittelwert möglicherweise keine angemessene zusammenfassende Statistik, selbst wenn die Stichprobenverteilung für diesen Mittelwert als zuverlässig angesehen werden könnte.

James Stanley
quelle
Also bin ich im Grunde genommen einfach zu aufgeregt, um diese theoretische Untermauerung der Funktionsweise einiger dieser Dinge zu verstehen? Ist das wirklich Interessante hier das Konfidenzintervall? Mit anderen Worten, wenn ich eine Studie über die Anzahl der Stunden veröffentlichen wollte, die ein durchschnittlicher Erwachsener in den USA schläft, und ich eine Stichprobe von 5.000 nehme und mein Konfidenzintervall bei 99,9% liegt, dann kann ich gehen vor und veröffentlichen Sie meine Studie mit der Aussage "zuversichtlich", dass der Durchschnitt der Erwachsenen in den USA 6,5 Stunden schläft?
Mergesort
2
Wo Sie sagten: " Zuversichtlich sagen, dass der Durchschnitt der Erwachsenen in den USA 6,5 Stunden schläft ". Nein, Sie können sich sicher sein, dass es im Durchschnitt nicht 6,5 Stunden sind. Sie können nur sicher sein , es ist ganz in der Nähe zu 6,5 Stunden, oder könnten Sie sicher sein , dass es "6,5 Stunden auf die nächsten 5 Minuten, oder so. Nur mit Bereichen ist ein gewisses Konfidenzniveau verbunden.
Glen_b -Reinstate Monica
1
@Glen_b bringt die Sache auf den Punkt - wir können niemals sagen, dass wir zuversichtlich sind, dass wir einen Bevölkerungswert genau richtig geschätzt haben, sondern dass wir eine Vorstellung von der Genauigkeit unseres Schätzprozesses haben.
James Stanley
@angrymonkey Ich denke, es ist immer noch nützlich, die Konzepte zu verstehen, die dem Ansatz der (simulierten) wiederholten Stichprobe zugrunde liegen. Für die Schätzung der Mittelwerte werden auch keine "großen" Stichprobengrößen benötigt - die Formel für den Standardfehler eines Mittelwerts lautet sample std deviation / square root(n)- die Quadratwurzel von n Teilen gibt an, dass sich die Schätzgenauigkeit für feste Inkremente als Stichprobengröße verschlechtert wird größer (z. B. durch die Bewegung von 10 auf 20 Personen in einer Stichprobe wird die Schätzgenauigkeit besser als durch die Bewegung von 210 auf 220 Personen.)
James Stanley
super ... vielen dank für die hilfe. Ein CI lässt uns also nur sagen, dass ich zu 95% sicher bin, dass die durchschnittliche Person zwischen 6,45 und 6,56 Stunden pro Nacht schläft. Warum behaupten dann einige Artikel, dass ein Durchschnittsmensch 4,5 Stunden am Tag fernsieht? sicherlich ist das Konfidenzintervall etwas wie 95% 4,43 und 4,56
Mergesort
10
  • Wenn die ursprüngliche Verteilung normal ist, ist auch der Stichprobenmittelwert normal mit Varianz σ2/n, wo nist die Stichprobengröße. Wien größer wird, wird die Varianz der Mittelwertverteilung kleiner, so dass der Stichprobenmittelwert im Grenzfall zum Wert des Populationsmittelwerts tendiert.
  • Wenn Sie mehrere unabhängige Stichproben nehmen, ist jeder Stichprobenmittelwert normal und der Mittelwert des Mittelwerts ist normal und entspricht dem wahren Mittelwert.
  • Wenn Ihre Samples wirklich von derselben Verteilung sind (z. B. 100 Samples zu je 10), werden Sie die gleichen Schlussfolgerungen ziehen, als ob Sie ein großes Sample von 1000 genommen hätten kann nicht ignoriert werden (siehe "Randomized Block Design".)
  • Wenn die Daten nicht normal sind, sondern aus einer Verteilung mit endlicher Varianz, impliziert der zentrale Grenzwertsatz, dass alle oben gemachten Aussagen in etwa wahr sind, in dem Sinne, dass die Grenzverteilung normal sein wird. Der größerenJe näher du der Normalität kommst.
  • Wenn Sie 100 Stichproben zu je 10 nehmen, weist das Stichprobenmittel eine Verteilung auf, die normaler aussieht als die ursprünglichen Daten, aber weniger normal als die Verteilung des Gesamtmittels.
  • Wenn Sie eine große Probe nehmen, nähern Sie sich auch der Normalität.
  • Wenn Sie den Populationsmittelwert schätzen möchten, spielt es (theoretisch) keine Rolle, ob Sie eine große Stichprobe von 1000 oder 100 Stichproben von 10 nehmen.
  • In der Praxis kann es jedoch vorkommen, dass Personen mit Stichprobentheorie die Stichprobe aus Gründen der Clusterbildung, der Schichtung und aus anderen Gründen aufteilen. Sie berücksichtigen dann das Stichprobenverfahren bei ihrer Schätzung. Aber das ist wirklich wichtig für eine andere Frage.
Placidia
quelle
In den meisten Lehrbüchern werden Sie durch diesen Begriff der Stichprobenverteilung der Stichprobenmittel geführt. Dies sagt Ihnen im Wesentlichen: "Hey, schauen Sie, wenn Sie eine Menge Proben entnehmen, ist dies in der Regel normal und entspricht in etwa dem Mittelwert der Grundgesamtheit." Dann sagen sie dir, dass du, wenn du groß genug Proben nimmst, nur eine sortieren kannst. Soll die Stichprobenverteilung des Stichprobenmittelwerts den Eindruck erwecken, dass Sie eine große Stichprobe entnehmen können? Mit anderen Worten, was ist der Zweck, es zu verstehen? Ist es nur, um Ihnen zu helfen, die Intuition zu verstehen, die hinter der Entnahme einer großen Probe steht? ignoriert die Idee, Theo
Mergesort am
Ich denke, dass @ "James Stanley" das sehr gut beantwortet. In jedem realen Fall nehmen Sie eine Stichprobe, berechnen den Stichprobenmittelwert und das ist Ihre Schätzung.
Placidia
1

Die Stichprobenverteilung des Mittelwerts ist die Verteilung ALLER Stichproben einer bestimmten Größe. Der Mittelwert der Stichprobenentfernung entspricht dem Mittelwert der Grundgesamtheit. Wenn wir über die Stichprobenentnahme des Mittelwerts für Stichproben einer bestimmten Größe sprechen, sprechen wir nicht über eine Stichprobe oder sogar über tausend Stichproben, sondern über alle Stichproben.

Allen Moser
quelle
0

Die Stichprobenentfernung vom Mittelwert hat nichts mit Konfidenzintervallen zu tun. Das ist ein anderes Konzept. Bei Stichprobenentfernung kann die Population normal oder nicht normal sein. A) Wenn Pop normal ist, ist die Stichprobenentfernung des Mittelwerts für jede Stichprobengröße normal. b) Wenn Pop nicht normal ist, kann 1) die Stichprobenentfernung des Mittelwerts NICHT als normal angesehen werden, es sei denn, die Stichprobengröße beträgt 30 oder mehr. Dann sagt uns der zentrale Grenzwertsatz, dass der Abtastabstand als normal betrachtet werden kann.

Sie sprechen über Vorhersagen. Voraussagen haben auch damit nichts zu tun. Sie geben zu viel in samp dist ein. Die Probenentfernung ist einfach Alle Proben und dann wird der Mittelwert genommen. Und der Mittelwert aller dieser Stichproben, mu sub x bar, entspricht dem Mittelwert der Population, mu und der Standard-Dev od-Stichprobenentfernung, Sigma sub x bar = Sigma dividiert durch die Quadratwurzel von n. (Wir werden nicht über den finiten Popkorrekturfaktor sprechen. Nehmen Sie Ihre Statistik als Nennwert. Lesen Sie nicht zu viel in ein Konzept. Verstehen Sie zunächst das Grundkonzept.

PS Der Samp dist of mean hat nichts zu tun, um pr

Allen Moser
quelle
Ich frage mich, ob diese Antwort mit Ihrer ersten Antwort kombiniert werden könnte, anstatt als eine andere Antwort eingegeben zu werden. Normalerweise bevorzugen wir, dass Sie 1 Antwort pro Thread haben. (Es gibt jedoch Ausnahmen.) Sie können einer vorhandenen Antwort Material hinzufügen oder Änderungen vornehmen, indem Sie links unten auf das graue Symbol "Bearbeiten" klicken.
gung - Wiedereinsetzung von Monica
0

Ich habe über Probleme mit Big Data nachgedacht und mir heute Morgen einige dieser Posts angesehen. Ich glaube nicht , das ein triviales Problem überhaupt ist, wieder den Unterschied zwischen der 1000 - Daten als ein Satz der Analyse im Vergleich zu 10 Sätze von 100. Bei der Analyse der Theorie , wenn die Nullhypothese wahr ist , dass die Daten iid sind, macht es nicht Unterschied. Clustering und Muster in den Daten werden jedoch überhaupt nicht angesprochen, wenn man einfach den Mittelwert der 1000 Daten nimmt und den geschätzten Mittelwert und den zugehörigen Standardfehler angibt.

Die Schlussfolgerung, zu der ich beim Betrachten einiger Seiten von StackExchange und Wikipedia gekommen bin, ist, dass Big Data das Offensichtliche sichtbar macht. Wenn es interessante Merkmale in der Gesamtbevölkerung gibt, würde ein großer Datensatz sie als Tag klar anzeigen. Wenn ich also einen sehr großen Datensatz hätte, den ich visuell betrachten könnte, würde ich nicht hineinspringen und kurze zusammenfassende Maßnahmen ergreifen, ohne zuerst nach sehr offensichtlichen Merkmalen Ausschau zu halten. Aus meinen ersten Lektionen in statistischer Inferenz habe ich gelernt, Diagramme und Visualisierungen der Daten als ersten Durchgang zu betrachten. Das kann ich nicht genug betonen. Wenn der Datensatz zu groß ist, als dass ein Mensch ihn auf einem Bildschirm betrachten könnte, sollte er mit einer für den Menschen lesbaren Auflösung unterabgetastet werden.

Olivia Grigg
quelle
Bitte unterschreibe deine Beiträge nicht - dafür steht der Benutzername unten rechts in deinem Beitrag.
Glen_b -Reinstate Monica