Ich unterrichte eine Intro-Statistik-Klasse und überprüfe die Arten der Stichproben, einschließlich systematischer Stichproben, bei denen Sie jede k-te Person oder jedes k-te Objekt stichprobenartig untersuchen.
Ein Schüler fragte, ob eine Stichprobe bei jeder Person mit einem bestimmten Merkmal dasselbe bewirken würde.
Würde die Stichprobe zum Beispiel für jede Person mit einem blauen T-Shirt zufällig sein und eine ausreichende Repräsentation der gesamten Bevölkerung liefern? Zumindest, wenn Sie eine andere Frage als "Welche T-Shirt-Farbe tragen Sie am liebsten?" Mein Sinn ist nein, aber ich habe mich gefragt, ob hier jemand darüber nachgedacht hat.
Antworten:
Die Antwort auf Ihre Frage lautet im Allgemeinen "Nein". Es ist bekanntermaßen schwierig, eine Zufallsstichprobe von einer Population (insbesondere von Menschen) zu erhalten. Durch die Konditionierung auf ein bestimmtes Merkmal erhalten Sie per Definition keine Zufallsstichprobe. Wie viel Voreingenommenheit dies mit sich bringt, ist insgesamt eine andere Frage.
Als ein etwas absurdes Beispiel würden Sie diese Art und Weise nicht bei einem Fußballspiel zwischen den Bären und den Packern ausprobieren wollen, selbst wenn Ihre Bevölkerung "Fußballfans" wäre. (Bärenfans haben möglicherweise andere Eigenschaften als andere Fußballfans, auch wenn die Menge, an der Sie interessiert sind, möglicherweise nicht direkt mit Fußball zu tun hat.)
Es gibt viele berühmte Beispiele für verborgene Verzerrungen, die sich aus der Gewinnung von Proben auf diese Weise ergeben. Beispielsweise wird bei den jüngsten US-Wahlen, bei denen Telefonumfragen durchgeführt wurden, angenommen, dass Personen, die nur ein Mobiltelefon und kein Festnetz besitzen, in der Stichprobe (möglicherweise dramatisch) unterrepräsentiert sind. Da diese Personen im Großen und Ganzen auch jünger sind als diejenigen mit Festnetzanschluss, wird eine voreingenommene Stichprobe erhalten. Darüber hinaus haben jüngere Menschen ganz andere politische Ansichten als ältere Bevölkerungsgruppen. Dies ist also ein einfaches Beispiel für einen Fall, in dem die Probe, auch wenn sie nicht absichtlich auf ein bestimmtes Merkmal konditioniert wurde, immer noch auf diese Weise konditioniert wurde. Und das, obwohl die Umfrage nichts zu tun hatte Auch bei der Konditionierungskennlinie (dh ob eine Festnetzverbindung verwendet wird oder nicht) war der Einfluss der Konditionierungskennlinie auf die Ergebnisse der Umfrage sowohl statistisch als auch praktisch signifikant.
quelle
Solange die Verteilung des Merkmals, mit dem Sie Einheiten in der Stichprobe auswählen, orthogonal zur Verteilung des Merkmals der Population ist, die Sie schätzen möchten, können Sie eine unvoreingenommene Schätzung der Populationsmenge erhalten, indem Sie die Auswahl darauf konditionieren. Die Stichprobe ist nicht rein zufällig . Die Leute neigen jedoch dazu zu übersehen, dass Zufallsstichproben gut sind, da die Zufallsvariable, die zur Auswahl von Einheiten in Stichproben verwendet wird, orthogonal zur Verteilung der Populationsmerkmale ist, nicht, weil sie zufällig ist.
Stellen Sie sich vor, Sie zeichnen zufällig aus einem Bernoulli mit P (invlogit (x_i)), wobei x_i in [-inf, inf] ein Merkmal der Einheit i ist, sodass Cov (x, y)! = 0 und y das Populationsmerkmal ist, dessen meine du willst schätzen. Die Stichprobe ist "zufällig" in dem Sinne, dass Sie vor der Auswahl in die Stichprobe zufällig wählen. Die Stichprobe liefert jedoch keine unvoreingenommene Schätzung des Populationsmittels von y.
Was Sie brauchen, ist die Konditionierung der Auswahl in Stichproben für eine Variable, die so gut wie zufällig zugewiesen ist . Das heißt, das ist orthogonal zu der Variablen, von der die interessierende Größe abhängt. Randomisierung ist gut, weil sie Orthogonalität gewährleistet und nicht aufgrund von Randomisierung.
quelle