Wie können wir bei einer Wahl die Gewissheit erkennen, dass ein Kandidat der Gewinner sein wird?

Ich wohne gestern bei einer allgemeinen Wahl, und das Fernsehsender rief schon lange vor Eröffnung aller Abstimmungen die Gewinner aus.

Sie haben sich in jeder Hinsicht als richtig erwiesen, und ich bin nicht wirklich überrascht, dass sie es getan haben. Ich weiß, dass Statistiken absolut realisierbar sind. Trotzdem bin ich neugierig. Vorausgesetzt:

wir haben geöffnet $i$ aus Stimmzettel; $j$
wir haben Kandidaten , deren aktuelle Werte sind $n$ ; $c_1, c_2, c_3, ... c_n$

Wie können wir die Gewissheit berechnen, mit der der Spitzenkandidat der Gewinner ist?

elections zneak
quelle

Beachten Sie, dass sie in der Regel Zugriff auf umfangreiche Abfragedaten für den Ausgang und andere Daten haben, mit denen sie das Ergebnis vorhersagen können. Sie benötigen nur eine ausreichende Bestätigung der eingehenden Zählung, um sicherzustellen, dass sie aufgrund eines Stichprobenfehlers nicht von der Reihe sind. Es gibt sicherlich Komplexitäten und die eingehenden Zählungen sind in der Regel eine voreingenommene Stichprobe, aber Umfragen zum Ausstieg tragen wesentlich dazu bei, einige dieser Probleme anzugehen.

gung - Reinstate Monica

Wenn "mit Sicherheit" wörtlich genommen werden soll, kann die Statistik eine Frage (fast?) Nie "mit Sicherheit" beantworten. Wir können jedoch mit größter Gewissheit antworten, dass die Antwort korrekt ist. (Mit anderen Worten, wenn wir unsere Daten erhalten und unsere Analysen korrekt durchführen, können wir Dinge sagen wie: "Meine Antwort ist nur in x% der Fälle falsch.")

Emil Friedman

Antworten:

Die Hauptschwierigkeit in der Praxis ist nicht die statistische Unsicherheit, dass ein Glücksfall einem Kandidaten mehr Stimmen gegeben hätte. Die größte Schwierigkeit besteht darin, dass die eröffneten Stimmzettel so gut wie nie eine unvoreingenommene Stichprobe der abgegebenen Stimmen sind. Wenn Sie diesen Effekt ignorieren, erhalten Sie den berühmten Fehler "Dewey Defeats Truman", der bei einem großen voreingenommenen Sample auftrat.

In der Praxis sind die Wähler, die einen Kandidaten gegenüber einem anderen favorisieren, nicht gleichmäßig nach Regionen verteilt, und zwar danach, ob sie tagsüber arbeiten oder ob sie im Ausland eingesetzt würden, und stimmen daher in Briefwahl ab. Dies sind keine kleinen Unterschiede.

Ich denke, was Nachrichtenorganisationen jetzt tun, ist, die Bevölkerung in Gruppen aufzuteilen und anhand der Ergebnisse zu schätzen, wie jede Gruppe abgestimmt hat (einschließlich der Wahlbeteiligung). Diese basieren möglicherweise auf Modellen und früheren Annahmen, die auf früheren Wahlen basieren, und nicht nur auf den Daten dieser Wahlen. Dabei werden Besonderheiten wie die Schmetterlingsstimmen von Palm Beach möglicherweise nicht berücksichtigt .

Douglas Zare
quelle

In Australien begannen die konservativen Parteien bis vor etwa 10-15 Jahren in der Regel mit der ersten Zählung, wobei die progressiven Parteien ein spätes Comeback erlebten. Die Fernsehsender wussten wahrscheinlich, was los war, aber die Variabilität sorgte wahrscheinlich für mehr Drama. All dies änderte sich, als ein Analyst namens Antony Green begann, die Stand-für-Stand-Ergebnisse zu verwenden, um die Tatsache zu berücksichtigen, dass kleine Stände in ländlichen Gebieten ihre Zählungen und Ergebnisse eher frühzeitig durchführen und konservativer abstimmen. Antony nannte das Wahlergebnis bekanntermaßen Stunden vor jedem anderen, der es benutzt.

Bogdanovist

Stand-für-Stand-Ergebnisse aus früheren Jahren können verwendet werden, um die Schätzungen des Gesamtergebnisses sehr genau zu kalibrieren.

Peter Ellis

@DouglasZare Ich denke, Sie meinen, dass die derzeit eröffneten Stimmzettel keine Zufallsstichprobe sind.

Michael R. Chernick

@Michael Chernick: Was ist der Unterschied zwischen einer nicht zufälligen und einer voreingenommenen Stichprobe? en.wikipedia.org/wiki/Sampling_bias scheint sie als Synonyme zu verwenden.

Douglas Zare

@DouglasZare Aus Ihrem Link geht hervor, dass Wikipedia eine voreingenommene Stichprobe als Synonym für nicht zufällig verwendet. Ich halte das für eine schlechte Wahl. Bias General bezieht sich auf die Erwartung, dass ein Schätzer nicht dem wahren Wert des Parameters entspricht. Im Zusammenhang mit der Stichprobe bedeutet eine nicht-zufällige Stichprobe keine Abweichung für eine bestimmte Schätzung. Es kann oder kann nicht zu einer Vorspannung führen.

Michael R. Chernick

Bei der Stichprobenerhebung wird der Standardfehler der Proportionsschätzung benötigt. Es kommt mehr auf i als auf j an. Außerdem ist es erforderlich, dass die von mir eröffneten Stimmzettel zufällig ausgewählt wurden. Wenn p der wahre endgültige Anteil für Kandidat A ist, dann ist die Varianz der Schätzung

\frac{(1 - \frac{i}{j}) p (1 - p)}{i}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ wird der endliche Populationskorrekturfaktor genannt. Um diese Varianz abzuschätzen, wird p in der Formel durch die übliche Schätzung für p ersetzt. Der Standardfehler ergibt sich aus der Quadratwurzel. Bei der Vorhersage eines Gewinners könnte der Meinungsforscher die Schätzung plus oder minus 3 Standardfehler verwenden. Wenn 0,5 nicht in der Pause enthalten ist, wird Kandidat A zum Gewinner erklärt, wenn 0,5 unter der Untergrenze liegt, oder sein Gegner wird zum Gewinner erklärt, wenn 0,5 über der Obergrenze liegt. Dies sagt natürlich nur mit sehr hoher Sicherheit aus, wer der Gewinner sein wird, falls 0,5 außerhalb des Intervalls liegen. Das Konfidenzniveau beträgt 0,99, wenn Sie drei Standardfehler verwenden (basierend auf der normalen Annäherung an das Binomial). Wenn 0,5 innerhalb des Intervalls liegt, wird niemand zum Gewinner erklärt und der Meinungsforscher wartet darauf, dass sich weitere Daten ansammeln.

Bei der Projektion können die Umfrageteilnehmer aus den gesammelten Stimmen eine geschichtete Zufallsstichprobe auswählen, um mögliche Verzerrungen zu vermeiden, die auftreten können, wenn man sich alle gezählten Stimmzettel ansieht. Das Problem bei der Betrachtung aller gesammelten Stimmen ist, dass bestimmte Bezirke vollständig über andere zählen und möglicherweise nicht repräsentativ für die Bevölkerung sind.

Der Artikel hier bietet eine gute Abdeckung des Problems und zahlreiche Referenzen.

Es wurde darauf hingewiesen, dass akkumulierte Stimmen voreingenommene Schätzungen der Proportionen liefern können, da entweder die noch zu meldenden Bezirke dazu tendieren, die Partei mit dem Kandidaten zu bevorzugen, der sich im Schlepptau befindet, oder die Briefwahl wahrscheinlich den Kandidaten im Schlepptau begünstigt und diese Stimmen werden zuletzt gezählt. Die hoch entwickelten Meinungsforscher wie Harris und Gallup fallen nicht in solche Fallen. Die einfache Analyse der Erstellung von Konfidenzintervallen auf der Grundlage der von mir skizzierten akkumulierten Stimmen ist nur ein Faktor, der verwendet wird. Diesen Meinungsforschern stehen sehr viel mehr Informationen zur Verfügung. Sie haben Umfragen, die kurz vor den Wahlen durchgeführt wurden, und sie haben die Abstimmungsmuster aller Wahlbezirke und Briefwahlstimmen, die in den letzten Jahren bei Wahlen durchgeführt wurden.

Wenn es also eindeutige Vorurteile gibt, die eine enge Wahl in die entgegengesetzte Richtung lenken könnten, werden die Umfrageteilnehmer dies erkennen und die Projektion eines Gewinners unterbrechen.

In den USA kommen die Briefwahlstimmen vorwiegend von ausländischen Militärangehörigen und Studenten, die in der Schule sind. Während das Militär eher konservativ ist und wahrscheinlich Republikaner wählt, sind die Kollegen eher liberal und eher demokratisch. All diese Überlegungen werden berücksichtigt.

Die Sorgfalt und Raffinesse der modernen Umfrage ist der Grund dafür, dass seitdem grobe Fehler wie die Literary Digest-Umfrage von 1936 oder die vorzeitige Konzession der Chicagoer Zeitung für die Wahl von 1948 nach Dewey nicht mehr vorgekommen sind.

Michael R. Chernick
quelle

Obwohl die implizite Analogie zur Stichprobenerhebung zutreffend ist, fügt diese Frage nicht komplizierende Faktoren hinzu? Erstens besteht die Möglichkeit von mehr als zwei Kandidaten. Zweitens ist dies ein sequenzielles Entscheidungsproblem: Im Gegensatz zum Umfrageteilnehmer, der normalerweise eine Umfragegröße angibt und eine Entscheidung auf der Grundlage der Stichprobe trifft, hat das Netzwerk in jedem Moment eine wachsende Stichprobe und muss entscheiden, ob die Wahl ansteht oder auf sie gewartet wird Mehr Informationen. Die Umfrageanträge, die Sie hier zitieren, scheinen auf diese dynamische Situation nicht anwendbar zu sein. Und warum sollte das Netzwerk 3 SEs verwenden? (Sein Ruf steht auf dem Spiel.)

whuber

@whuber Ich stimme zu, dass es Komplikationen gibt, die in der Praxis wahrscheinlich nicht berücksichtigt werden. Der Einfachheit halber habe ich einen Fall mit zwei Kandidaten gewählt, bei dem die Mehrheit ein Sieg ist. Ich denke, das ist die Situation, die das OP im Auge hatte. Wenn Sie mit drei oder mehr Kandidaten im Plural gewinnen, bedeutet dies, dass Sie nachweisen, dass der "siegreiche Kandidat einen höheren Anteil als seine Gegner hat". Wenn Sie die Umfrage mehr als einmal durchführen, sollte der sequenzielle Charakter der Stichprobe berücksichtigt werden es ist

Michael R. Chernick

Ich habe mich für 3 SE entschieden, weil ich der Meinung bin, dass die Umfrageteilnehmer "sehr sicher" sein wollen, dass sie Recht haben, bevor sie einen Gewinner erklären. Daher denke ich, dass 3 über 2 verwendet werden würde. Wenn Sie ein noch geringeres Fehlerrisiko wünschen, könnten Sie höher als 3 sein. Ich habe die Formel für den Standardfehler verwendet, um dem OP eine Vorstellung davon zu geben, wie der Grad der Sicherheit von i und abhängt j auf einfache Weise. Die Situation zu verkomplizieren würde das Ergebnis komplizierter machen und die Abhängigkeit I i und j würde nicht so klar erkennbar sein.

Michael R. Chernick

n

$n$

2

$2$

Kann mir jemand die Rechtfertigung dafür erklären, da ich mehrere Ablehnungen bekomme?

Michael R. Chernick