Umfragen (sagen wir Gallup) haben eine absurd niedrige Anzahl von Menschen im Vergleich zur Bevölkerungszahl ergeben (z. B. vielleicht tausend von Hunderten von Millionen Menschen).
Für mich ist die Auswahl einer Population als Mittel zur Schätzung der Bevölkerungsstatistik sinnvoll, wenn Sie einen starken Grund zu der Annahme haben, dass die Stichproben repräsentativ für die Population (oder ähnlich für andere Stichproben ) sind .
Zum Beispiel ist die Probenahme für medizinische Studien offensichtlich sinnvoll, da wir a priori wissen, dass alle Menschen ein sehr ähnliches Genom haben und dass dieser Faktor bewirkt, dass sich ihr Körper ähnlich verhält.
Beachten Sie, dass dies keine lose Kopplung ist - das Genom ist ein verdammt stark bestimmender Faktor .
Ich verstehe jedoch einfach nicht, was es rechtfertigt, niedrige Stichprobengrößen für politische Umfragen zu verwenden.
Ich könnte mir vorstellen, dass vielleicht 80-90% der Menschen in einer bestimmten Nachbarschaft ähnlich für den Präsidenten stimmen (aufgrund ähnlicher sozioökonomischer / bildungsbezogener Hintergründe), aber dies scheint die absurd niedrige Anzahl von Stichproben kaum zu rechtfertigen. Es gibt buchstäblich keinen zwingenden Grund (zumindest für mich), warum 1000 zufällige Wähler sich wie die 200 Millionen anderen Wähler verhalten sollten.
Für mich bräuchten Sie mindestens das 100-fache dieses Betrags. Warum? Ich kann mir eine Reihe von Gründen vorstellen, zB:
Es gibt ~ 22.000 Bezirke nur in Kalifornien . Die Menschen wachsen in ihren wirtschaftlichen und schulischen Verhältnissen so unterschiedlich auf, dass eine Umfrage der Größe 1000 lächerlich klein erscheint. Wie kann man ganze Bezirke mit durchschnittlich <1 Person zusammenfassen?
Menschen können die Reaktionen ihres Körpers auf die Medizin im Allgemeinen nicht ändern, aber sie können ihre Ansichten über die Politik ändern, indem sie nur darüber nachdenken. So wie ich das sehe, gibt es in der Medizin keinen ähnlichen Faktor wie DNA, wenn Sie sich mit Politik beschäftigen. Am besten würde ich mir vorstellen , sollte es kleine Taschen von Korrelation sein.
Doch irgendwie scheinen Umfragen wie diese ... trotzdem zu funktionieren? Oder zumindest scheinen die Leute zu glauben, dass sie es tun?
Aber warum sollten sie? Vielleicht verstehe ich Sampling einfach nicht ? Kann das jemand erklären?
Ich kann keine der Umfragen, die ich sehe, ernst nehmen, aber ich fühle mich in dieser Sache mehr oder weniger allein ...
quelle
Antworten:
Anscheinend stellen Sie sich ein sehr einfaches Stichprobenmodell vor.
Das einfachste Modell für die Stichprobe heißt treffend einfache Zufallsstichprobe . Sie wählen eine Untergruppe der Bevölkerung aus (z. B. indem Sie zufällig Telefonnummern wählen) und fragen, wer antwortet, wie diese abstimmen. Wenn 487 Clinton sagen, 463 Trump und der Rest Ihnen eine verrückte Antwort gibt, dann würden die Umfragegesellschaft berichten, dass 49% der Wähler Clinton bevorzugen, während 46% Trump bevorzugen. Die Wahlbüros tun jedoch noch viel mehr. Eine einfache Zufallsstichprobe gibt jedem Datenpunkt das gleiche Gewicht. Nehmen wir jedoch an, Ihre Stichprobe enthält zufällig 600 Männer und 400 Frauen, was eindeutig nicht repräsentativ für die Gesamtbevölkerung ist. Wenn Männer als Gruppe in die eine Richtung tendieren, während Frauen in die andere Richtung tendieren, wird dies Ihr Ergebnis beeinflussen. Da wir jedoch ziemlich gute Bevölkerungsstatistik haben, können Sie Gewicht *die Antworten, indem die Antworten der Frauen etwas mehr und die der Männer etwas weniger gezählt werden, so dass die gewichtete Antwort die Bevölkerung besser repräsentiert. Meinungsforschungsinstitute haben kompliziertere Wägemodelle, die eine nicht repräsentative Stichprobe repräsentativer machen können.
Die Idee, die Stichprobenantworten zu gewichten, stützt sich auf eine recht solide statistische Grundlage, es besteht jedoch eine gewisse Flexibilität bei der Auswahl der Faktoren, die zur Gewichtung beitragen. Die meisten Umfrageteilnehmer gewichten aufgrund demografischer Faktoren wie Geschlecht, Alter und Rasse neu. Vor diesem Hintergrund könnte man denken , dass die Parteiidentifikation (demokratisch, republikanisch, usw.) sollten ebenfalls einbezogen werden, aber es stellt sich heraus , dass die meisten Wahl Firmen haben nicht verwenden es in ihren Gewichten: Partei (Selbst-) -Kennzeichnung wird mit dem Wähler die Wahl verheddert auf eine Weise, die es weniger nützlich macht.
Viele Umfrageteams melden ihre Ergebnisse auch unter "wahrscheinlichen Wählern". Dabei werden die Befragten entweder ausgewählt oder gewichtet, basierend auf der Wahrscheinlichkeit, dass sie tatsächlich an den Umfragen teilnehmen. Dieses Modell ist zweifellos auch datengetrieben, aber die genaue Auswahl der Faktoren ermöglicht eine gewisse Flexibilität. Das Einbeziehen von Interaktionen zwischen dem Kandidaten und der Rasse (oder dem Geschlecht) des Wählers war zum Beispiel bis 2008 oder 2016 nicht einmal sinnvoll, aber ich vermute, dass sie jetzt eine gewisse Vorhersagekraft haben.
Theoretisch können Sie alle möglichen Faktoren als Gewichtungsfaktoren einbeziehen: Musikalische Vorlieben, Augenfarbe usw. Demografische Faktoren sind jedoch beliebte Optionen für Gewichtungsfaktoren, weil:
Umfrageteilnehmer sehen jedoch auch die gleichen Nachrichten wie alle anderen und können die Gewichtungsvariablen bei Bedarf anpassen.
Es gibt auch einige "Fudge-Faktoren", die manchmal zur Erklärung der Umfrageergebnisse herangezogen werden. Beispielsweise zögern die Befragten manchmal, "sozial unerwünschte" Antworten zu geben. Der Bradley-Effekt besagt, dass weiße Wähler manchmal ihre Unterstützung für weiße Kandidaten, die gegen eine Minderheit antreten, herunterspielen, um nicht rassistisch zu wirken. Es ist nach Tom Bradley benannt, einem afroamerikanischen Gouverneurskandidaten, der die Wahl knapp verloren hat, obwohl er in den Umfragen bequem an der Spitze stand.
Schließlich haben Sie völlig Recht, dass die bloße Frage nach der Meinung einer Person dies ändern kann. Wahlbüros versuchen, ihre Fragen neutral zu formulieren. Um Probleme mit der Reihenfolge der möglichen Antworten zu vermeiden, werden die Namen der Kandidaten möglicherweise in zufälliger Reihenfolge aufgelistet. Manchmal werden auch mehrere Versionen einer Frage gegeneinander getestet. Dieser Effekt kann auch für schändliche Zwecke in einer Push-Umfrage ausgenutzt werden , bei der der Interviewer eigentlich nicht daran interessiert ist, Antworten zu sammeln, sondern sie zu beeinflussen. In einer Push-Umfrage könnte beispielsweise die Frage gestellt werden, ob Sie für [Kandidat A] stimmen würden, auch wenn gemeldet wurde, dass er ein Kinderschänder war.
* Sie können auch explizite Ziele für Ihre Stichprobe festlegen, z. B. 500 Männer und 500 Frauen. Dies wird als geschichtete Stichprobe bezeichnet - die Population wird in verschiedene Gruppen geschichtet, und jede Gruppe wird dann nach dem Zufallsprinzip beprobt. In der Praxis wird dies bei Umfragen nicht sehr häufig durchgeführt, da Sie sich in viele vollständige Gruppen einteilen müssen (z. B. Männer mit Hochschulabschluss zwischen 18 und 24 Jahren in Urban Texas).
quelle
Es gibt ein mathematisches Theorem, das "Gesetz der großen Zahlen" genannt wird. Stellen Sie sich vor, Sie möchten die Wahrscheinlichkeit bestimmen, dass eine Münze auf den Kopf kommt. Die "Bevölkerung" der Münzwürfe ist unendlich - viel größer als die über 300.000.000 Menschen in den Vereinigten Staaten. Aber nach dem Gesetz der großen Zahlen ist Ihre Schätzung umso genauer, je mehr Münzen geworfen werden.
Die ideale Umfrage: Bei der idealen Umfrage würden die Umfrageteilnehmer nach dem Zufallsprinzip Namen aus der US-Volkszählung auswählen, herausfinden, wo diese Menschen leben, und dann an ihre Tür klopfen. Wenn die Person sagt, dass sie abstimmen will, fragt der Umfrageteilnehmer, für wen sie abstimmen, und zeichnet ihre Antwort auf. Es ist mathematisch garantiert, dass eine solche Abfrage funktioniert, und die Fehlermenge in Ihrer Messung für ein bestimmtes Konfidenzniveau kann leicht berechnet werden .
Das bedeutet der Fehler: Angenommen, Sie haben laut Ihrer Umfrage eine 52-prozentige Chance, dass Candidate Awesome McPerfect mit 3% Fehler und 98% Selbstvertrauen gewinnt. Das bedeutet, dass Sie zu 98% sicher sein können, dass der wahre Anteil der Wähler, die den Kandidaten Awesome McPerfect favorisieren, zwischen 49% und 55% liegt.
Ein Hinweis zu Fehler und Zuverlässigkeit Je zuverlässiger Sie bei einer bestimmten Stichprobengröße sind, desto größer ist der Fehler. Denken Sie darüber nach - Sie sind zu 100% davon überzeugt, dass der wahre Anteil, der Canditate Awesome unterstützt, zwischen 0% und 100% liegt (größtmöglicher Fehler), und Sie sind zu 0% davon überzeugt, dass der wahre Anteil, der Canditate Awesome unterstützt, genau 52.0932840985028390984308% ist. (Null Fehler). Mehr Vertrauen bedeutet mehr Fehler, weniger Vertrauen bedeutet weniger Fehler. Das Verhältnis zwischen Vertrauen und Fehler ist jedoch NICHT linear! (Siehe: https://en.wikipedia.org/wiki/Confidence_interval )
Umfragen in der realen Welt: Weil es teuer ist, mit dem Hubschrauber in alle Teile des Landes zu fliegen, um an die Türen zufälliger Leute zu klopfen (obwohl ich das gerne sehen würde; wenn Sie ein Milliardär sind und Sie das sehen, bitte Betrachten Sie die Finanzierung dieses), sind Umfragen in der realen Welt komplexer. Schauen wir uns eine der gebräuchlichsten Strategien an: Sie rufen zufällige Wähler auf und fragen sie, wen sie wählen würden. Es ist eine gute Strategie, aber es gibt einige bekannte Fehler:
Da unterschiedliche Bevölkerungsgruppen unterschiedlich abstimmen, müssen die Umfrageteilnehmer ihr Bestes tun, um die Unterschiede in ihren Rohdaten (basierend darauf, wer sich für den Anrufbeantworter entschieden hat) und den Ergebnissen der tatsächlichen Wahlen zu kontrollieren. Wenn zum Beispiel 10% der Personen, die das Telefon abgenommen haben, Hispanoamerikaner waren, aber 30% der Wähler bei der letzten Wahl Hispanoamerikaner, dann werden sie in ihrer Umfrage den Hispanoamerikanern das dreifache Gewicht beimessen. Wenn 50% der Personen, die am Telefon geantwortet haben, älter als 60 Jahre waren, aber nur 30% der Personen, die bei der letzten Wahl gewählt haben, älter als 60 Jahre, werden sie den älteren Wählern, die geantwortet haben, weniger Gewicht beimessen. Es ist nicht perfekt, aber es kann zu einigen beeindruckenden Vorhersagetaten führen (Nate Silver hat die Ergebnisse in jedem der 50 Bundesstaaten bei den Wahlen 2012 mithilfe von Statistiken richtig vorhergesagt).
Ein Wort der Vorsicht für die Weisen: Die Umfrageteilnehmer treffen die besten Vorhersagen, die sie auf der Grundlage der bisherigen Entwicklungen treffen können. Im Allgemeinen funktionieren die Dinge ungefähr so wie in der Vergangenheit, oder zumindest ist die Veränderung langsam genug, dass die jüngste Vergangenheit (auf die sie sich am meisten konzentrieren) der Gegenwart ähnelt. Gelegentlich kommt es jedoch zu schnellen Veränderungen in der Wählerschaft, und die Dinge laufen schief. Vielleicht ist die Wahrscheinlichkeit, dass Trump-Wähler ans Telefon gehen, etwas geringer als die eines durchschnittlichen Wählers, und die Gewichtung nach demografischen Merkmalen trägt nicht dazu bei. Oder vielleicht sind junge Leute (die Hillary mit überwältigender Mehrheit unterstützen) noch mehrEs ist unwahrscheinlich, dass der Anruf entgegengenommen wird, als die Modelle vorhersagen, und diejenigen, die den Anruf entgegennehmen, sind mit größerer Wahrscheinlichkeit Republikaner. Oder vielleicht ist das Gegenteil von beidem der Fall - wir wissen es nicht. Solche Dinge sind versteckte Variablen, die in häufig gesammelten demografischen Daten nicht angezeigt werden.
Wir würden wissen, ob wir Meinungsforscher schicken, die an zufällige Türen klopfen sollen (ähm, imaginäre Milliarden lesen das), dann müssten wir die Dinge nicht nach demografischen Gesichtspunkten gewichten, aber bis dahin drücken wir die Daumen.
quelle
Erstens ist dies abgesehen von Ihren Hauptpunkten, aber es ist erwähnenswert. In der medizinischen Studie könnten 1000 Menschen ein Medikament testen, das 10000 Kranken pro Jahr verabreicht werden kann. Sie könnten sich das ansehen und denken: "Das wird an 10% der Bevölkerung getestet." Tatsächlich sind es nicht 10000 Menschen, sondern nur zukünftige Patienten. Die Bevölkerungszahl ist also unendlich. 1000 Menschen sind nicht groß im Vergleich zu den unendlichen potentiellen Konsumenten der Droge, aber diese Art von Studien funktionieren. Es ist nicht wichtig, ob Sie 10%, 1% oder 0,1% der Bevölkerung testen. Was wichtig ist, ist die absolute Größe der Stichprobe und nicht, wie groß sie im Vergleich zur Grundgesamtheit ist.
Als nächstes geht es hauptsächlich darum, dass es so viele verwirrende Variablen gibt, die das Abstimmen von Menschen beeinflussen können. Sie behandeln die 22000 Bezirke Kaliforniens wie 22000 Variablen, aber in Wirklichkeit handelt es sich nur um eine Handvoll Variablen (Einkommen und Bildung, wie Sie erwähnt haben). Sie benötigen keine repräsentative Stichprobe aus jedem Distrikt, Sie benötigen nur genügend Stichproben, um die Schwankungen aufgrund von Einkommen, Bildung usw. abzudecken.
Bearbeiten:
Die obige Formel ging davon aus, dass jede Störgröße gleich wichtig ist. Wenn wir Hunderte von Dingen berücksichtigen möchten, die zu einer Varianz der Ergebnisse führen können, ist diese Annahme nicht gültig (z. B. unterstützen Twitter-Benutzer möglicherweise einen Kandidaten mehr, aber wir wissen, dass die Verwendung von Twitter nicht so wichtig ist wie das Geschlecht).
quelle