Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind? Meiner Meinung nach lautet die Antwort nein, da wir die wahren Werte der Parameter genau berechnen können. Aber wie hoch ist dann der maximale Anteil an Daten aus der ursprünglichen Population, der es uns ermöglicht, die oben genannten Techniken anzuwenden?
hypothesis-testing
confidence-interval
sample-size
large-data
population
Miroslav Sabo
quelle
quelle
Antworten:
Die erste Frage hat keine allgemein vereinbarte Antwort. Meine eigene Ansicht ist wie Ihre, aber andere haben argumentiert, dass eine Bevölkerung als Stichprobe aus einer "Superpopulation" angesehen werden kann, bei der die genaue Natur einer Superpopulation je nach Kontext variiert: ZB eine Volkszählung aller Menschen, in denen sie leben Ein Gebäude könnte als Stichprobe aller Menschen angesehen werden, die in ähnlichen Gebäuden leben. Eine Volkszählung der Bevölkerung der USA (nicht, dass man jemals wirklich vollständig sein könnte) könnte als Stichprobe einer Superpopulation von Amerikanern angesehen werden, die eines Tages existieren könnten (oder so ähnlich). Ich denke, dies ist oft eine Ausrede, um p-Werte zu verwenden. Viele Wissenschaftler auf inhaltlichen Gebieten fühlen sich nicht wohl, wenn sie keinen p-Wert haben. (Aber das ist meine Ansicht).
Die zweite Frage scheint etwas seltsam zu sein. Wann bekommen Sie eine Stichprobe, die (sagen wir) sogar mehr als die Hälfte der Bevölkerung ausmacht?
Ein größeres Problem wird die Voreingenommenheit sein. Zurück zur US-Volkszählung: Das Problem besteht nicht nur darin, dass Menschen vermisst werden, sondern dass die Menschen, die es vermisst, keine Zufallsstichprobe der Gesamtbevölkerung sind. Selbst wenn die Volkszählung Antworten von 95% aller Personen erhält (um eine Zahl auszuwählen), sind die Ergebnisse voreingenommen, wenn die verbleibenden 5% sehr unterschiedlich sind.
quelle
Angenommen, nur 2 von 12 Ausschussmitgliedern sind Frauen.
Oder es kann als Schätzung der Wahrscheinlichkeit herangezogen werden, dass eine Frau für das Komitee ausgewählt wird - eine Eigenschaft des Auswahlverfahrens. Sie können Konfidenzintervalle darum legen, testen, ob sie sich signifikant von der Hälfte (oder einer anderen relevanten Nullhypothese) unterscheiden, und so weiter. Vielleicht muss der Prozess geändert werden, um ihn fair zu gestalten.
Die beiden beschreibenden und inferentiellen Ansichten sind nicht widersprüchlich, sondern sehr unterschiedlich.
Die Antwort auf die zweite Frage lautet, dass es sinnvoll ist, Konfidenzintervalle für & Testhypothesen zu einem Populationsparameter zu berechnen, selbst wenn nur eine einzelne Person nicht abgetastet ist. Beachten Sie nur, dass CIs & Tests einen erheblichen Anteil der befragten Bevölkerung berücksichtigen müssen: siehe endliche Bevölkerungskorrektur .
quelle