Warum überhaupt eine ersatzlose Probenahme in einer praktischen Anwendung in Betracht ziehen?

12

Die Probenahme mit Ersatz hat zwei Vorteile gegenüber der Probenahme ohne Ersatz, wie ich es sehe:

1) Sie müssen sich keine Sorgen um die endliche Populationskorrektur machen.

2) Es besteht die Möglichkeit, dass Elemente aus der Grundgesamtheit mehrmals gezeichnet werden. Dann können Sie die Messungen recyceln und Zeit sparen.

Natürlich muss man von einem akademischen POV aus beide Methoden untersuchen. Aber von einem praktischen POV aus sehe ich nicht, warum man angesichts der Vorteile eines Ersatzes eine ersatzlose Probenahme in Betracht ziehen würde.

Aber ich bin ein Anfänger in der Statistik, daher kann es viele gute Gründe geben, warum ohne Ersatz die bessere Wahl sein könnte - zumindest für bestimmte Anwendungsfälle. Bitte verwirren Sie mich nicht!

Raffael
quelle
3
Hinweis: Überlegen Sie, wie sich die Anwendung der endlichen Populationskorrektur auswirkt und warum dies vorteilhaft sein kann. (Beachten Sie auch, dass (1) das Durchführen von Summen fast immer weniger Aufwand und Kosten verursacht als das Sammeln von Daten; (2) Wenn Sie Personen unterscheiden können, sollten Sie Messungen nicht "recyceln", sondern nur auf die einzelnen Personen schließen.)
Scortchi - Stellen Sie Monica wieder her
Ehrlich gesagt verstehe ich keine Ihrer Behauptungen wirklich. Die FPC kompensiert die numerischen Folgen mangelnder Unabhängigkeit der Messungen. Aber ich weiß nicht, warum das vorteilhaft ist. (1) Wie hängt das mit meiner Frage zusammen? (2) Warum sollten Sie eine Messung nicht recyceln? Ist dies nicht die direkte logische Folge davon, dass bei der Probenahme mit Ersatz zufällig doppelt derselbe Gegenstand gezeichnet wurde?
Raffael

Antworten:

12

Erweiterung der Antwort von @Scortchi. . .

Angenommen, die Bevölkerung hatte 5 Mitglieder und Sie haben ein Budget, um 5 Personen zu befragen. Sie interessieren sich für den Populationsmittelwert einer Variablen X, ein Merkmal von Personen in dieser Population. Sie können es auf Ihre Weise tun und zufällig mit Ersatz probieren. Die Varianz des Stichprobenmittelwerts beträgt V (X) / 5.

Angenommen, Sie probieren die fünf Personen ersatzlos aus. Dann ist die Varianz des Stichprobenmittelwerts 0. Sie haben die gesamte Population genau einzeln befragt, sodass zwischen "Stichprobenmittelwert" und "Populationsmittelwert" nicht unterschieden wird. Sie sind das gleiche.

In der realen Welt sollten Sie jedes Mal vor Freude springen, wenn Sie die endliche Populationskorrektur durchführen müssen, da (Trommelwirbel ...) die Varianz Ihres Schätzers sinkt, ohne dass Sie mehr Daten sammeln müssen. Fast nichts macht das. Es ist wie Magie: gute Magie.

endliche Probenkorrektur=N.- -nN.- -1<N.- -1N.- -1=1

Korrektur <1 bedeutet, dass durch Anwenden der Korrektur die Varianz nach unten geht, da Sie die Korrektur anwenden, indem Sie sie mit der Varianz multiplizieren. Varianz UNTEN == gut.

Wenn Sie sich in die entgegengesetzte Richtung bewegen, ganz weg von der Mathematik, denken Sie darüber nach, was Sie fragen. Wenn Sie mehr über die Bevölkerung erfahren möchten und 5 Personen daraus befragen können, ist es wahrscheinlich, dass Sie mehr lernen, indem Sie die Chance nutzen, denselben Mann fünfmal zu befragen, oder ist es wahrscheinlicher, dass Sie mehr lernen, indem Sie sicherstellen dass du 5 verschiedene Typen probierst?

Der Fall der realen Welt ist fast das Gegenteil von dem, was Sie sagen. Fast nie probieren Sie mit Ersatz - es ist nur, wenn Sie spezielle Dinge wie Bootstrapping tun. In diesem Fall versuchen Sie tatsächlich, den Schätzer zu vermasseln und ihm eine "zu große" Varianz zu geben.

Rechnung
quelle
Unter "Bootstrapping" verstehe ich die Verwendung eines Parameters der Stichprobe anstelle des Parameters der Population (den Sie tatsächlich hätten verwenden müssen), um einen Parameter der Population zu schätzen. Warum sollten Sie daran interessiert sein, den Schätzer zu "vermasseln" und ihm eine "zu große" Varianz zu geben?
Raffael
1
@ Яaffael Ich spreche von nicht parametrischem Bootstrapping. Sie nehmen Ihre Stichprobe (z. B. Größe 100), nehmen eine erneute Stichprobe mit Ersatz (100-mal ergibt eine Bootstrap-Stichprobe Größe 100) und berechnen dann Ihren interessierenden Schätzer neu. Sie behandeln die Stichprobe als Spielzeugpopulation, simulieren das Ziehen einer Stichprobe und berechnen einen Schätzer. Wenn Sie ersatzlos aus der Spielzeugpopulation beprobt haben, würden Sie die Spielzeugpopulation in der Stichprobe genau kopieren und die ursprüngliche Schätzung als neue Schätzung erhalten (dh Varianz = 0). Um dies zu vermeiden, probieren Sie mit Ersatz.
Bill
5

Die Genauigkeit der Schätzungen ist bei ersatzlosen Stichproben normalerweise höher als bei Stichproben mit Ersatz.

Beispielsweise kann nur ein Element ausgewählt werden nZeiten, in denen die Probenahme im Extremfall durch Austausch erfolgt. Dies könnte zu einer sehr ungenauen Schätzung des interessierenden Populationsparameters führen. Eine solche Situation ist bei ersatzloser Probenahme nicht möglich. Daher ist die Varianz bei Schätzungen, die aus ersatzlosen Stichproben stammen, normalerweise geringer.

djhurio
quelle
2

Ich denke nicht, dass die Antworten hier völlig angemessen sind, und sie scheinen für den Grenzfall zu sprechen, in dem Ihre Datenmenge sehr gering ist.

Bei einer ausreichend großen Stichprobe ist dies überhaupt keine Sorge, insbesondere bei vielen Bootstrap-Resamples (~ 1000). Wenn ich aus der wahren Verteilung einen Datensatz mit einer Größe von 10.000 abgetastet und 1.000 Mal mit einem Ersatz neu abgetastet habe , ist die Varianz , die ich erhalte (im Gegensatz zu der Varianz, die ich erhalten würde, wenn ich keinen Ersatz mache ), völlig vernachlässigbar.

Ich würde sagen, dass die genauere Antwort folgende lautet: Resampling ohne Ersatz ist wichtig, wenn das Vertrauen einer Statistik zweiter Ordnung geschätzt werden soll . Zum Beispiel, wenn ich einen Bootstrap verwende, um die Unsicherheit zu schätzen, die ich bei einer Dispersionsmessung habe. Das Ziehen mit Ersatz für eine solche Menge kann die zurückgewonnenen Dispersionen künstlich niedrig beeinflussen.

Ein konkretes Beispiel mit realen Daten finden Sie in diesem Dokument unter https://arxiv.org/abs/1612.02827

Es wird kurz auf Ihre Frage auf Seite 10 eingegangen

Anonym
quelle
0

Ich habe ein Ergebnis, das praktisch wie beim Ersatz ersatzlos behandelt und alle Schwierigkeiten beseitigt. Beachten Sie, dass mit Ersatz Berechnungen viel einfacher sind. Wenn also eine Wahrscheinlichkeit p und q, Erfolgs- und Misserfolgswahrscheinlichkeiten im Ersatzfall beinhaltet, wird die entsprechende Wahrscheinlichkeit im Ersatzfall einfach durch Ersetzen von p ^ aq ^ b durch (Nab) C (Ra) für erhalten a und b, wobei N, R die Gesamtzahl der Kugeln und die Anzahl der weißen Kugeln sind. Denken Sie daran, dass p als R / N behandelt wird.

K. Balasubramanian

Krish Balasubramanian
quelle
es gab eine Auslassung. (Nab) C (Ra) / (NCR) ist der richtige Ausdruck. Zum Beispiel wird der Mittelwert np zu n (N-1-0) / (R-1) / NCR. Sie können ein solches Ergebnis überprüfen.
Krish Balasubramanian