Was ist der Unterschied zwischen einer Population und einer Stichprobe?

38

Was ist der Unterschied zwischen einer Population und einer Stichprobe? Welche gemeinsamen Variablen und Statistiken werden für jede verwendet und in welcher Beziehung stehen diese zueinander?

Baltimark
quelle

Antworten:

36

Die Population ist die Menge der untersuchten Entitäten. Zum Beispiel die mittlere Körpergröße von Männern. Dies ist eine hypothetische Population, da sie alle Männer einschließt, die gelebt haben, am Leben sind und in Zukunft leben werden. Ich mag dieses Beispiel, weil es den Punkt nach Hause treibt, an dem wir als Analysten die Population auswählen, die wir untersuchen möchten. Normalerweise ist es nicht möglich, die gesamte Bevölkerung zu erfassen / zu messen, da nicht alle Mitglieder beobachtbar sind (z. B. Männer, die in Zukunft existieren werden). Wenn es möglich ist, die gesamte Bevölkerung zu erfassen, ist dies oft kostspielig und würde viel Zeit in Anspruch nehmen. Im obigen Beispiel haben wir eine Population "Männer" und einen interessierenden Parameter, ihre Größe.

Stattdessen können wir eine Teilmenge dieser Population, die als Stichprobe bezeichnet wird, verwenden, um unter bestimmten Bedingungen Rückschlüsse auf die untersuchte Population zu ziehen. Auf diese Weise könnten wir die mittlere Körpergröße von Männern in einer Stichprobe der Bevölkerung messen, die wir als Statistik bezeichnen, und daraus Rückschlüsse auf den interessierenden Parameter in der Bevölkerung ziehen. Dies ist eine Folgerung, da es eine gewisse Unsicherheit und Ungenauigkeit geben wird, wenn Rückschlüsse auf die Population auf der Grundlage einer Stichprobe gezogen werden. Dies sollte offensichtlich sein - wir haben weniger Mitglieder in unserer Stichprobe als unsere Bevölkerung, daher haben wir einige Informationen verloren.

Es gibt viele Möglichkeiten, eine Stichprobe auszuwählen, und die Untersuchung wird Stichprobentheorie genannt. Eine häufig verwendete Methode heißt Simple Random Sampling (SRS). In der SRS hat jedes Mitglied der Bevölkerung die gleiche Wahrscheinlichkeit, in die Stichprobe einbezogen zu werden, daher der Begriff "zufällig". Es gibt viele andere Stichprobenverfahren, z. B. geschichtete Stichproben, Cluster-Stichproben usw., die alle Vor- und Nachteile haben.

Es ist wichtig, sich daran zu erinnern, dass die Stichprobe, die wir aus der Population ziehen, nur eine von einer großen Anzahl potenzieller Stichproben ist. Wenn zehn Forscher dieselbe Population untersuchen und ihre eigenen Proben ziehen, erhalten sie möglicherweise unterschiedliche Antworten. Zurück zu unserem früheren Beispiel: Jeder der zehn Forscher hat möglicherweise eine andere Durchschnittsgröße für Männer, dh die fragliche Statistik (Durchschnittsgröße) variiert von Stichprobe zu Stichprobe - sie hat eine Verteilung, die als Stichprobenverteilung bezeichnet wird. Wir können diese Verteilung verwenden, um die Unsicherheit unserer Schätzung des Populationsparameters zu verstehen.

Es ist bekannt, dass die Stichprobenverteilung des Stichprobenmittelwerts eine Normalverteilung mit einer Standardabweichung ist, die der Standardabweichung der Stichprobe dividiert durch die Stichprobengröße entspricht. Da dies leicht mit der Standardabweichung der Stichprobe verwechselt werden kann, ist es üblicher, die Standardabweichung der Stichprobenverteilung als Standardfehler zu bezeichnen .

Graham Cookson
quelle
7
Ist es nicht ein wenig sinnlos, "alle Männer jemals" als Bevölkerung zu benutzen? Ich meine, es gibt nicht einmal einen Konsens darüber, wie alt Homo Sapiens ist oder ob Homo Neanderthalensis eine eigene Art ist, geschweige denn, ob Männer des Steinwerkzeugs, die Homo Habilis verwenden, als "Männer" gelten. Vermutlich werden auch in Zukunft die gleichen Probleme auf uns zukommen.
naught101
Im letzten Absatz, denke ich, gibt es ein kleines bisschen Hand, und es sollte lauten ... "gleich der Stichprobenstandardabweichung geteilt durch die [Quadratwurzel] der Stichprobengröße" in Bezug auf den Standardfehler .
Antoni Parellada
13

Die Grundgesamtheit ist die gesamte Menge von Werten oder Personen, an denen Sie interessiert sind. Die Stichprobe ist eine Teilmenge der Grundgesamtheit und die Menge von Werten, die Sie tatsächlich für Ihre Schätzung verwenden.

Wenn Sie beispielsweise die durchschnittliche Größe der Einwohner Chinas kennen möchten, ist dies Ihre Bevölkerung, dh die Bevölkerung Chinas. Die Sache ist, das ist eine ziemlich große Zahl, und Sie könnten dort nicht für alle Daten abrufen. Sie ziehen also eine Stichprobe, das heißt, Sie erhalten einige Beobachtungen oder die Größe einiger Menschen in China (eine Untergruppe der Bevölkerung, die Stichprobe) und ziehen daraus Ihre Schlussfolgerungen.

Vivi
quelle
Gute Antwort. Ich denke, Sie sollten weiter auf das eingehen, was Sie unter "darauf aufbauen" verstehen. Das ist der zweite Teil meiner Frage.
Baltimark
mmm ... Ich habe nicht wirklich verstanden, was Sie mit welchen gemeinsamen Variablen und Statistiken gemeint haben ... Oh, meinen Sie, Sie verwenden die z-Verteilung, wenn Sie die Populationsvarianz haben, und die t-Verteilung, wenn Sie nur die Stichprobenvarianz haben und die Stichprobengröße ist klein? Etwas in diese Richtung?
Vivi
Ich habe festgestellt, dass der Mittelwert und die Standardabweichung Parameter sind, die mit der Grundgesamtheit in Zusammenhang stehen. Sie werden jedoch durch den Stichprobenmittelwert ((1 / N) * \ sum (x_i)) und die Stichprobenstandardabweichung ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark,
8

Die Bevölkerung ist alles in der Gruppe der Studie. Wenn Sie beispielsweise den Kurs von Apple-Aktien untersuchen, sind dies die historischen, aktuellen und sogar alle zukünftigen Aktienkurse. Oder wenn Sie eine Eierfabrik betreiben, sind es alle Eier, die von der Fabrik hergestellt werden.

Sie müssen nicht immer Stichproben machen und statistische Tests durchführen. Wenn Ihre Bevölkerung Ihre unmittelbar lebende Familie ist, müssen Sie keine Stichprobe machen, da die Bevölkerung klein ist.

Sampling ist aus verschiedenen Gründen beliebt:

  • es ist billiger als eine Volkszählung (Auswahl der gesamten Bevölkerung)
  • Sie haben keinen Zugriff auf zukünftige Daten, müssen also die Vergangenheit abtasten
  • Sie müssen einige Gegenstände zerstören, indem Sie sie testen, und Sie möchten nicht alle zerstören (z. B. Eier).
Neil McGuigan
quelle
2

Wenn wir an den Begriff „Bevölkerung“ denken, denken wir normalerweise an Menschen in unserer Stadt, Region, Bundesland oder Land und ihre jeweiligen Merkmale wie Geschlecht, Alter, Familienstand, ethnische Zugehörigkeit, Religion usw. In der Statistik hat der Begriff „Bevölkerung“ eine etwas andere Bedeutung. Die „Grundgesamtheit“ in der Statistik umfasst alle Mitglieder einer definierten Gruppe, die wir für datengetriebene Entscheidungen untersuchen oder über die wir Informationen sammeln.

Ein Teil der Bevölkerung wird Stichprobe genannt. Es ist ein Teil der Bevölkerung, ein Teil davon, ein Teil davon und all seine Eigenschaften. Eine Stichprobe ist eine wissenschaftlich gezogene Gruppe, die tatsächlich dieselben Merkmale wie die Bevölkerung aufweist - wenn sie zufällig gezogen wird. (Dies ist vielleicht schwer zu glauben, aber es ist wahr!)

Nach dem Zufallsprinzip gezogene Proben müssen zwei Merkmale aufweisen:

* Jede Person hat die gleiche Chance, für Ihre Stichprobe ausgewählt zu werden. und,

* Die Auswahl einer Person ist unabhängig von der Auswahl einer anderen Person.

Was an Zufallsstichproben großartig ist, ist, dass Sie auf die Bevölkerung verallgemeinern können, an der Sie interessiert sind. Wenn Sie also 500 Haushalte in Ihrer Gemeinde befragen, können Sie auf die 50.000 Haushalte verallgemeinern, die dort leben. Wenn Sie einige der demografischen Merkmale des 500 mit den 50.000 vergleichen, werden Sie feststellen, dass sie überraschend ähnlich sind.

roseleneramas
quelle
2
Dies ist grundsätzlich richtig, wenn es richtig interpretiert wird. Ich mache mir Sorgen, dass einige Leser irregeführt werden könnten, wenn sie glauben, dass einfache Zufallsstichproben mit Ersetzung (die Art der Zufallsstichprobe, die Sie beschreiben; es gibt andere Arten) alle Merkmale der Population korrekt wiedergeben . In der Tat tun sie selten. Der Punkt der Zufallsstichprobe ist, dass die (unvermeidlichen) Unterschiede zwischen den Merkmalen der Stichprobe und den Merkmalen der Grundgesamtheit auf den Zufallsauswahlprozess zurückgeführt werden können.
whuber
0

Eine Grundgesamtheit enthält alle Elemente aus einem Datensatz. Eine Stichprobe besteht aus einer oder mehreren Beobachtungen aus der Bevölkerung. BOA, A. (2012, 17)

user91513
quelle
2
Wenn alle Elemente eines "Datensatzes" als Grundgesamtheit betrachtet werden, wird dieser Datensatz als Volkszählung bezeichnet . Sehr wenige Datensätze sind Volkszählungen.
Whuber