Da es sich bei der Wahl um eine einmalige Veranstaltung handelt, kann dieses Experiment nicht wiederholt werden. Was genau bedeutet die Aussage "Hillary hat eine 75% ige Gewinnchance" technisch? Ich suche eine statistisch korrekte Definition, keine intuitive oder konzeptionelle.
Ich bin ein Amateur-Statistik-Fan, der versucht, auf diese Frage zu antworten, die in einer Diskussion aufgetaucht ist. Ich bin mir ziemlich sicher, dass es eine gute objektive Antwort darauf gibt, aber ich kann es mir nicht selbst einfallen lassen ...
probability
prediction
politics
pitosalas
quelle
quelle
Antworten:
Alle bisher gegebenen Antworten sind hilfreich, aber statistisch nicht sehr genau, daher werde ich darauf zurückgreifen. Gleichzeitig werde ich eine allgemeine Antwort geben, anstatt mich auf diese Wahl zu konzentrieren.
Das erste, was Sie beachten sollten, wenn Sie versuchen, Fragen zu realen Ereignissen wie dem Wahlsieg von Clinton zu beantworten, im Gegensatz zu erfundenen mathematischen Problemen wie dem Herausnehmen von Bällen in verschiedenen Farben aus einer Urne, ist, dass es keine gibt. t Eine eindeutige, vernünftige Antwort auf die Frage und daher keine eindeutige, vernünftige Antwort. Wenn jemand nur sagt, "Hillary hat eine 75% ige Gewinnchance", und das Modell der Wahl, die Daten, die sie für ihre Schätzungen verwendet haben, die Ergebnisse ihrer Modellvalidierung, ihre Hintergrundannahmen, ob sie es sind, nicht beschreibt Wenn Sie sich auf die Volksabstimmung, die Wahlabstimmung usw. beziehen, dann haben sie Ihnen nicht wirklich gesagt, was sie bedeuten, geschweige denn, Sie haben genug Informationen geliefert, um zu bewerten, ob ihre Vorhersage gut ist. Außerdem ist es nicht
Mit welchen Verfahren kann ein Statistiker Clintons Chancen einschätzen? Wie könnten sie das Problem tatsächlich umrahmen? Auf hoher Ebene gibt es verschiedene Vorstellungen von der Wahrscheinlichkeit selbst, von denen zwei die häufigste und die Bayes'sche sind.
In einer häufigeren Ansicht repräsentiert eine Wahrscheinlichkeit die Grenzfrequenz eines Ereignisses über viele unabhängige Versuche desselben Experiments, wie im Gesetz der großen Zahlen (stark oder schwach). Auch wenn eine bestimmte Wahl ein einzigartiges Ereignis ist, kann ihr Ergebnis als Unentschieden aus einer unendlichen Anzahl von historischen und hypothetischen Ereignissen angesehen werden, die alle amerikanischen Präsidentschaftswahlen oder alle Wahlen weltweit im Jahr 2016 oder etwas anderes umfassen könnten. Eine 75% ige Chance auf einen Clinton-Sieg bedeutet, dass, wenn eine Folge von Ergebnissen (0 oder 1) unabhängiger Wahlen ist, die für unser Modell dieser Wahl völlig gleichwertig sind, der Stichprobenmittelwert von konvergiert mit einer Wahrscheinlichkeit von .75 alsX 1 , X 2 , ... , X n nX1,X2,… X1,X2,…,Xn n geht ins Unendliche.
In einer Bayes'schen Sichtweise repräsentiert eine Wahrscheinlichkeit einen Grad an Glaubwürdigkeit oder Glaubwürdigkeit (der tatsächlich sein kann oder nicht, abhängig davon, ob Sie ein subjektivistischer Bayes'scher sind). Eine 75% ige Chance auf einen Clinton-Sieg bedeutet, dass 75% glaubwürdig sind, dass sie gewinnen wird. Die Glaubwürdigkeit kann wiederum frei gewählt werden (basierend auf den vorher bestehenden Überzeugungen eines Modells oder eines Analytikers) im Rahmen der Grundwahrscheinlichkeitsgesetze (wie Bayes 'Theorem ) und der Tatsache, dass die Wahrscheinlichkeit eines gemeinsamen Ereignisses die Grenzwahrscheinlichkeit von keinem von beiden überschreiten kann die Komponentenereignisse). Eine Möglichkeit, diese Gesetze zusammenzufassen, besteht darin, dass kein Spieler ein niederländisches Buch erstellen kann, wenn Sie Wetten auf den Ausgang eines Ereignisses abschließen und den Spielern entsprechend Ihrer Glaubwürdigkeit Quoten anbietenDies ist eine Reihe von Wetten, die garantieren, dass Sie Geld verlieren, unabhängig davon, wie die Veranstaltung tatsächlich abläuft.
Unabhängig davon, ob Sie eine häufige oder eine bayesianische Sicht auf die Wahrscheinlichkeit haben, müssen noch viele Entscheidungen getroffen werden, wie die Daten analysiert und die Wahrscheinlichkeit geschätzt werden sollen. Möglicherweise basiert die beliebteste Methode auf parametrischen Regressionsmodellen wie der linearen Regression. In dieser Einstellung wählt der Analyst eine parametrische Verteilungsfamilie (dh Wahrscheinlichkeitsmaße ) aus, die durch einen als Parameter bezeichneten Zahlenvektor indiziert wird. Jedes Ergebnis ist eine unabhängige Zufallsvariable, die aus dieser Verteilung gezogen und gemäß den Kovariaten transformiert wird. Hierbei handelt es sich um bekannte Werte (z. B. die Arbeitslosenquote), anhand derer der Analyst das Ergebnis vorhersagen möchte. Der Analyst wählt Schätzungen der Parameterwerte anhand der Daten und eines Modellanpassungskriteriums wie beispielsweise der kleinsten Quadrate ausoder maximale Wahrscheinlichkeit . Unter Verwendung dieser Schätzungen kann das Modell eine Vorhersage des Ergebnisses (möglicherweise nur ein einzelner Wert, möglicherweise ein Intervall oder eine andere Menge von Werten) für einen bestimmten Wert der Kovariaten erstellen. Insbesondere kann es den Ausgang einer Wahl vorhersagen. Neben parametrischen Modellen gibt es nichtparametrische Modelle (dh Modelle, die durch eine Verteilungsfamilie definiert sind, die mit einem unendlich langen Parametervektor indiziert ist) sowie Methoden zur Bestimmung vorhergesagter Werte, die kein Modell verwenden, mit dem die Daten überhaupt generiert wurden B. Klassifikatoren für die nächsten Nachbarn und zufällige Gesamtstrukturen .
Vorhersagen zu treffen ist eine Sache, aber woher weißt du, ob sie gut sind? Denn ausreichend ungenaue Vorhersagen sind schlimmer als nutzlos. Das Testen von Vorhersagen ist Teil der umfassenderen Praxis der Modellvalidierung, dh der Quantifizierung, wie gut ein bestimmtes Modell für einen bestimmten Zweck ist. Zwei beliebte Methoden zur Validierung von Vorhersagen sind die Kreuzvalidierung und die Aufteilung der Daten in Trainings- und Testuntergruppen, bevor Modelle angepasst werden. In dem Maße, in dem die in den Daten enthaltenen Wahlen für die US-Präsidentschaftswahlen 2016 repräsentativ sind, geben die Schätzungen der Vorhersagegenauigkeit, die wir aus der Validierung von Vorhersagen erhalten, Auskunft darüber, wie genau unsere Vorhersage für die US-Präsidentschaftswahlen 2016 sein wird.
quelle
Wenn Statistiker ein binäres Ergebnis vorhersagen wollen (Hillary gewinnt gegen Hillary gewinnt nicht), stellen sie sich vor, dass das Universum eine imaginäre Münze wirft - Heads, Hillary gewinnt; Schwänze, verliert sie. Für einige Statistiker steht die Münze für den Grad ihres Glaubens an das Ergebnis. Für andere stellt die Münze dar, was passieren könnte, wenn wir die Wahlen unter den gleichen Umständen immer wieder wiederholen. Philosophisch gesehen ist es schwer zu verstehen, was wir meinen, wenn wir von ungewissen zukünftigen Ereignissen sprechen, noch bevor wir Zahlen hineinziehen. Aber wir können sehen, woher die Nummer kommt.
Zu diesem Zeitpunkt der Wahl haben wir eine Reihe von Umfrageergebnissen. Diese sind von der Form: 1000 Menschen wurden zum Beispiel in Ohio befragt. 40% unterstützen Trump, 39% Hillary, 21% sind unentschlossen. Ähnliche Umfragen aus früheren Wahlen würden für die jeweiligen Kandidaten der Demokraten, Republikaner (und anderer Trace-Parteien) durchgeführt. Für frühere Jahre gibt es auch Ergebnisse. Sie wissen vielleicht, dass Kandidaten mit 40% der Stimmen in einer Umfrage im Juli 8 der 10 vorherigen Wahlen gewonnen haben. Oder die Ergebnisse könnten sagen, in 7 von 10 Wahlen haben Demokraten Ohio erobert. Vielleicht wissen Sie, wie Ohio im Vergleich zu Texas abschneidet (vielleicht wählen sie nie denselben Kandidaten) - vielleicht haben Sie Informationen darüber, wie die unentschlossene Abstimmung zusammenbricht - und Sie haben interessante Modelle dessen, was passiert, wenn ein Kandidat anfängt, "aufzublähen".
Wenn Sie also frühere Wahlen berücksichtigen, können Sie sagen, dass die Wahlmünze bereits mehrmals geworfen wurde. Dieselbe Wahl wird nicht alle 4 Jahre wiederholt, aber wir können so tun, als ob es so wäre. Aus all diesen Informationen erstellen die Umfrageteilnehmer komplexe Modelle, um das Ergebnis für dieses Jahr vorherzusagen.
Die 75% ige Gewinnchance von Hillary ist relativ zu unserem Wissensstand "heute". Es heißt, dass eine Kandidatin mit den Umfrageergebnissen, die sie "jetzt" in den Staaten hat, in denen sie sie hat, und mit den Trends in ihren Umfragen während der Kampagne, die Wahl in 3 von 4 Wahljahren gewinnt. Ein Monat ab Jetzt hat sich ihre Gewinnwahrscheinlichkeit geändert, da das Modell auf dem Stand der Umfragen im August basiert.
Die USA hatten in ihrer Geschichte noch keine statistisch große Anzahl von Wahlen, geschweige denn seit Beginn der Wahlen. Wir können auch nicht sicher sein, dass die Umfragetrends aus den 70er Jahren noch zutreffen. Also ist alles ein bisschen zwielichtig.
Das Fazit ist, dass Hillary mit der Arbeit an ihrer Antrittsrede beginnen sollte.
quelle
Wenn Statistiker dies sagen, beziehen sie sich nicht auf die Gewinnspanne oder den Stimmenanteil. Sie führen eine große Anzahl von Wahlsimulationen durch und zählen, wie viel Prozent der Stimmen jeder Kandidat erhält. Für viele robuste Präsidentenmodelle haben sie Prognosen für jeden Staat. Einige sind knapp und wenn das Rennen mehrmals ausgetragen wird, könnten beide Kandidaten gewinnen. Da Vorhersageintervalle eine Gewinnspanne von 0 oft überlappen, handelt es sich nicht um eine binäre Antwort, sondern um eine Simulation, die genauer angibt, was zu erwarten ist.
Die Methodenseite von FiveThirtyEight kann dazu beitragen, ein wenig mehr darüber zu verstehen, was sich unter der Haube verbirgt : http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
quelle
Es gibt eine Episode des Freakonomics-Radios, die für diese Frage sehr relevant ist (im Allgemeinen nicht in den Einzelheiten der Wahl). Darin interviewt Stephen Dubner den Leiter eines Projekts einer US-amerikanischen Verteidigungsagentur, um herauszufinden, wie globale politische Ereignisse am besten prognostiziert werden können.
Dann besprechen sie, was nicht zu tun ist
Die Folge befasst sich mit den Methoden, die die erfolgreichsten Prognostiker zur Abschätzung dieser Wahrscheinlichkeiten verwendeten, und befürwortet einen informellen Bayes'schen Ansatz
Die Episode heißt How to Be Less Terrible bei der Vorhersage der Zukunft und macht sehr viel Spaß. Ich ermutige Sie, es zu überprüfen, wenn Sie an so etwas interessiert sind!
quelle
Die Wahlen 2016 sind in der Tat eine einmalige Veranstaltung. Aber so ist das Werfen einer Münze oder das Werfen eines Würfels.
Wenn jemand behauptet zu wissen, dass ein Kandidat eine 75% ige Gewinnchance hat, sagt er das Ergebnis nicht voraus. Sie behaupten, die Form des Würfels zu kennen.
Das Wahlergebnis kann dies nicht entkräften. Wenn das von ihnen verwendete Modell jedoch auf 75% getestet wird, könnte sich herausstellen, dass es nur einen begrenzten prädiktiven Wert hat. Oder es kann als wertvoll geboren werden.
Sobald den Kandidaten ein wertvoller Prädiktor bekannt ist, können sie ihr Verhalten ändern und das Modell kann irrelevant gemacht werden. Oder es kann alles überproportional geblasen werden. Schauen Sie sich an, was in Iowa passiert.
quelle
Wenn jemand sagt, dass "Hillary eine 75% ige Gewinnchance hat", bedeutet dies, dass er dies in Betracht zieht, wenn er eine Wette anbietet, bei der eine Person 25 Dollar erhält, wenn Hillary gewinnt, und die andere Person 75 Dollar, wenn Hillary nicht gewinnt eine faire Wette und keinen besonderen Grund, eine Seite zu bevorzugen.
Diese Prozentsätze stammen normalerweise aus Prognosemärkten. Diese fassen alle verfügbaren Informationen zusammen und übertreffen in der Regel analytische Methoden zur Vorhersage der meisten Ereignisse.
Prognosemärkte bieten Menschen die Möglichkeit, darauf zu wetten, ob ein bestimmtes Ereignis eintreten wird oder nicht. Die Auszahlungen werden durch Verhandlungen zwischen den Menschen auf beiden Seiten des Vorschlags festgelegt. Im Allgemeinen versuchen Personen mit speziellen Kenntnissen über ein Angebot, dieses Wissen zu nutzen, um Geld zu verdienen, was den Nebeneffekt hat, dass diese Informationen verloren gehen.
Angenommen, es gibt einen Prognosemarkt für die Frage, ob eine bestimmte Berühmtheit bis Ende dieses Jahres leben wird. Die Öffentlichkeit kennt das Alter der Berühmtheit und jeder kann die Grundwahrscheinlichkeit abrufen, mit der die Berühmtheit bis zum Ende des Jahres sterben wird. Wenn das alles war, was bekannt war, würde man erwarten, dass die Leute bereit sind, mit ungefähr dieser Wahrscheinlichkeit auf die eine oder andere Seite dieses Satzes zu setzen.
Angenommen, jemand wusste, dass Prominente sich in schlechtem Gesundheitszustand befanden, verheimlichte dies jedoch. Oder sogar sagen, dass viele Leute wussten, dass die Familie dieser Berühmtheit eine Vorgeschichte von Herzerkrankungen hatte, die ihre Überlebenschancen verringern würden. Die Leute mit diesen Informationen werden bereit sein, eine Seite dieses Vorschlags einzunehmen, was dazu führt, dass sich der Kurs anpasst, sobald Käufer einen Aktienkurs nach oben drücken und Verkäufer ihn nach unten drücken.
Mit anderen Worten, wenn die Chancen zu niedrig sind, werden sie von Gewinninteressierten in die Höhe getrieben. Und wenn sie zu hoch sind, werden sie von Gewinninteressierten unter Druck gesetzt. Der Preis der Wette spiegelt letztendlich die kollektive Weisheit eines jeden in Bezug auf die Wahrscheinlichkeit des Eintretens des Satzes wider, genauso wie alle Preise die kollektive Weisheit über die Kosten und Werte der Dinge widerspiegeln.
quelle
Die Schlüsselfrage ist, wie Sie einem eindeutigen Ereignis eine Wahrscheinlichkeit zuweisen. Die Antwort lautet, dass Sie ein Modell entwickeln, nach dem es nicht mehr eindeutig ist. Ich denke, ein einfacheres Beispiel ist, wie hoch die Wahrscheinlichkeit ist, dass der Präsident im Amt stirbt. Sie können den Präsidenten als eine Person eines bestimmten Alters, eines bestimmten Alters und Geschlechts betrachten. Etc ... jedes Modell gibt Ihnen eine andere Vorhersage ... a priori gibt es kein korrektes Modell ... es ist dem Statistiker überlassen, welches Modell am besten geeignet ist.
quelle
In Anbetracht der Umfragen, die ein sehr enges Rennen zeigen, können die 75% genau sein oder auch nicht.
Sie fragen, was es bedeutet und nicht, wie sie dies berechnet haben. Die Implikation ist, dass Sie 3 $ setzen müssen , um eine 4 $ Rendite zu erhalten, wenn Sie gewinnen, wenn Sie außer Clinton und ihrer einzigen Hauptgegnerin niemanden ignorieren . Alternativ würde eine Wette von 1 $ auf den anderen Läufer 4 $ einbringen, wenn er gewinnt.
Meine Antwort macht einen kleinen Unterschied zwischen der tatsächlichen Gewinnchance eines Kandidaten und den Erwartungen der Leute (Spieler oder Gewinnchancen). Ich vermute, wenn Sie Zahlen wie diese sehen, zB 75%, sehen Sie die Odds Maker-Zahlen, wenn Sie 49 bis 48% sehen, sehen Sie Umfrageergebnisse.
quelle
Wenn sie es richtig machen, passiert etwas ungefähr drei Viertel der Fälle, in denen sie sagen, es hätte eine 75% ige Chance. (oder allgemeiner, die gleiche Idee wird über alle prozentualen Prognosen angepasst)
Es ist möglich, mehr Bedeutung als das zuzuschreiben, abhängig von unseren philosophischen Ansichten und wie sehr wir den Modellen glauben, aber dieser pragmatische Standpunkt ist so etwas wie ein kleinster gemeinsamer Nenner - zumindest versuchen statistische Methoden (wenn auch möglicherweise als eine Seite) Prognosen zu treffen, die diesem pragmatischen Standpunkt entsprechen.
quelle