Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind?

Ist es sinnvoll, Konfidenzintervalle zu berechnen und Hypothesen zu testen, wenn Daten aus der gesamten Bevölkerung verfügbar sind? Meiner Meinung nach lautet die Antwort nein, da wir die wahren Werte der Parameter genau berechnen können. Aber wie hoch ist dann der maximale Anteil an Daten aus der ursprünglichen Population, der es uns ermöglicht, die oben genannten Techniken anzuwenden?

hypothesis-testing confidence-interval sample-size large-data population Miroslav Sabo
quelle

Wenn Sie korrekte Methoden mit endlichen Stichproben verwenden, geht die Varianz auf Null, sobald Ihre Stichprobe die Populationsgröße erreicht. Das heißt, es gibt keine maximale Größe. die richtigen Formeln funktionieren , wie sie sollten, bis zu

n = N

$n=N$

Glen_b -State Monica

Ich denke, Sie sollten es klarer formulieren, wenn es sich um den Fall "Stichprobe = Bevölkerung" oder "Stichprobe aus endlicher Bevölkerung" handelt.

ttnphns

Der erste Teil der Frage betrifft die Stichprobe = Bevölkerung und der zweite Teil die Stichprobe aus der Bevölkerung (wenn Stichprobengröße <Bevölkerungsgröße).

Miroslav Sabo

Eng verwandte Fragen: Test auf Signifikanz mit Daten, die die gesamte Bevölkerung repräsentieren? und Ressourcen, wenn Bevölkerungsdaten verfügbar sind

Silverfish

Antworten:

Die erste Frage hat keine allgemein vereinbarte Antwort. Meine eigene Ansicht ist wie Ihre, aber andere haben argumentiert, dass eine Bevölkerung als Stichprobe aus einer "Superpopulation" angesehen werden kann, bei der die genaue Natur einer Superpopulation je nach Kontext variiert: ZB eine Volkszählung aller Menschen, in denen sie leben Ein Gebäude könnte als Stichprobe aller Menschen angesehen werden, die in ähnlichen Gebäuden leben. Eine Volkszählung der Bevölkerung der USA (nicht, dass man jemals wirklich vollständig sein könnte) könnte als Stichprobe einer Superpopulation von Amerikanern angesehen werden, die eines Tages existieren könnten (oder so ähnlich). Ich denke, dies ist oft eine Ausrede, um p-Werte zu verwenden. Viele Wissenschaftler auf inhaltlichen Gebieten fühlen sich nicht wohl, wenn sie keinen p-Wert haben. (Aber das ist meine Ansicht).

Die zweite Frage scheint etwas seltsam zu sein. Wann bekommen Sie eine Stichprobe, die (sagen wir) sogar mehr als die Hälfte der Bevölkerung ausmacht?

Ein größeres Problem wird die Voreingenommenheit sein. Zurück zur US-Volkszählung: Das Problem besteht nicht nur darin, dass Menschen vermisst werden, sondern dass die Menschen, die es vermisst, keine Zufallsstichprobe der Gesamtbevölkerung sind. Selbst wenn die Volkszählung Antworten von 95% aller Personen erhält (um eine Zahl auszuwählen), sind die Ergebnisse voreingenommen, wenn die verbleibenden 5% sehr unterschiedlich sind.

Peter Flom - Monica wieder einsetzen
quelle

Ich denke, ob Sie Konfidenzintervalle für eine Bevölkerungsstatistik berechnen oder nicht, hängt davon ab, ob Sie Rückschlüsse auf die tatsächliche Bevölkerung oder auf die hypothetische "Superpopulation" ziehen möchten. In einem früheren Job bei einer staatlichen Gesundheitsabteilung berichteten wir über jährliche Statistiken wie sehr niedrige Prozentsätze des Geburtsgewichts und Selbstmordraten, die von Jahr zu Jahr schwankten. Ja, wir haben über die gesamte Bevölkerung berichtet, aber es wäre dumm, den Gesundheitsfortschritt (und die Finanzierung!) Des Staates von jeder Zunahme oder Abnahme dieser und anderer Gesundheitsindikatoren als völlige Verschiebung der Gesundheit der Bevölkerung abhängig zu machen.

RobertF

Angenommen, nur 2 von 12 Ausschussmitgliedern sind Frauen.

$\frac{1}{6}$

Oder es kann als Schätzung der Wahrscheinlichkeit herangezogen werden, dass eine Frau für das Komitee ausgewählt wird - eine Eigenschaft des Auswahlverfahrens. Sie können Konfidenzintervalle darum legen, testen, ob sie sich signifikant von der Hälfte (oder einer anderen relevanten Nullhypothese) unterscheiden, und so weiter. Vielleicht muss der Prozess geändert werden, um ihn fair zu gestalten.

Die beiden beschreibenden und inferentiellen Ansichten sind nicht widersprüchlich, sondern sehr unterschiedlich.

Die Antwort auf die zweite Frage lautet, dass es sinnvoll ist, Konfidenzintervalle für & Testhypothesen zu einem Populationsparameter zu berechnen, selbst wenn nur eine einzelne Person nicht abgetastet ist. Beachten Sie nur, dass CIs & Tests einen erheblichen Anteil der befragten Bevölkerung berücksichtigen müssen: siehe endliche Bevölkerungskorrektur .

Scortchi - Monica wieder einsetzen
quelle