Erstens gibt er Wahrscheinlichkeit von Ergebnissen. So liegen seine Vorhersagen für die US-Wahlen derzeit bei 82% Clinton gegenüber 18% Trump.
Nun, auch wenn Trump gewinnt, woher weiß ich, dass er nicht nur 18% der Zeit hätte gewinnen sollen?
Das andere Problem ist, dass sich seine Wahrscheinlichkeiten mit der Zeit ändern. Am 31. Juli stand es zwischen Trump und Clinton fast 50:50.
Meine Frage ist, da er jeden Tag eine andere Wahrscheinlichkeit für dasselbe zukünftige Ereignis mit demselben Ergebnis hat, wie kann ich messen, wie genau er für jeden Tag war, an dem er eine Vorhersage auf der Grundlage der Informationen gemacht hat, die bis zu diesem Tag verfügbar waren?
forecasting
prediction
validation
accuracy
scoring-rules
Dinosauriersuppe
quelle
quelle
Antworten:
Probabilistische Vorhersagen (oder auch Dichtevorhersagen genannt) können mit Hilfe von Bewertungsregeln bewertet werden , dh Funktionen, die eine Dichtevorhersage und ein beobachtetes Ergebnis auf einen sogenannten Score abbilden, dessen Erwartungswert bei der Dichtevorhersage minimiert wird in der Tat ist die wahre Dichte vorherzusagen. Richtige Bewertungsregeln sind Bewertungsregeln, deren Erwartung nur durch die tatsächliche zukünftige Dichte minimiert wird.
Es gibt eine ganze Reihe solcher Bewertungsregeln, beginnend mit Brier (1950, Monthly Weather Review ) im Zusammenhang mit der probabilistischen Wettervorhersage. Czado et al. (2009, Biometrics ) geben einen neueren Überblick für den Einzelfall. Gneiting & Katzfuss (2014, Annual Review of Statistics and its Application ) geben einen Überblick über probabilistische Prognosen im Allgemeinen - Gneiting im Besonderen hat die Gründe für angemessene Bewertungsregeln sehr aktiv vorangetrieben .
Bewertungsregeln sind jedoch etwas schwierig zu interpretieren und helfen nur beim Vergleich mehrerer wahrscheinlichkeitstheoretischer Vorhersagen - die mit der niedrigeren Bewertung ist besser. Das heißt, bis zur Stichprobenvariation ist es immer besser, viele Vorhersagen auszuwerten, deren Werte wir mitteln würden.
Wie man die "Aktualisierung" der Prognosen von Silver oder anderen einbezieht, ist eine gute Frage. Wir können Bewertungsregeln verwenden, um "Schnappschüsse" verschiedener Prognosen zu einem bestimmten Zeitpunkt zu vergleichen, oder wir können sogar die probabilistischen Prognosen von Silver im Zeitverlauf betrachten und die Punktzahlen zu jedem Zeitpunkt berechnen. Man würde hoffen, dass die Punktzahl immer niedriger wird (dh die Dichtevorhersagen werden immer besser), je näher das tatsächliche Ergebnis rückt.
quelle
In Nate Silvers Buch The Signal and the Noise schreibt er Folgendes, das möglicherweise einen Einblick in Ihre Frage bietet:
Das wirft also ein paar Punkte auf. Zunächst einmal können Sie, wie Sie zu Recht betonen, anhand des Ergebnisses des Ereignisses, das Sie prognostizieren, keine Aussage über die Qualität einer einzelnen Prognose treffen. Das Beste, was Sie tun können, ist zu sehen, wie sich Ihr Modell im Verlauf vieler Vorhersagen verhält.
Eine weitere wichtige Überlegung ist, dass die Vorhersagen von Nate Silver kein Ereignis selbst sind, sondern die Wahrscheinlichkeitsverteilung des Ereignisses. Im Falle eines Präsidentenrennens schätzt er die Wahrscheinlichkeitsverteilung, mit der Clinton, Trump oder Johnson das Rennen gewinnen. In diesem Fall schätzt er eine multinomiale Verteilung.
Tatsächlich prognostiziert er das Rennen aber weitaus genauer. Seine Vorhersagen schätzen die Wahrscheinlichkeitsverteilungen des Prozentsatzes der Stimmen, die jeder Kandidat in jedem Staat erhalten wird. Wenn wir also 3 Kandidaten betrachten, könnte dies durch einen Zufallsvektor der Länge 51 * 3 charakterisiert werden, der Werte im Intervall [0, 1] annimmt, unter der Bedingung, dass die Proportionen für die Proportionen innerhalb eines Zustands zu 1 addieren. Die Zahl 51 ist, weil andere 50 Staaten + DC sind (und ich denke, es sind tatsächlich ein paar mehr, weil einige Staaten ihre Wahlkollegialstimmen aufteilen können), und die Zahl 3 ist auf die Anzahl der Kandidaten zurückzuführen.
Jetzt haben Sie nicht sehr viele Daten, mit denen Sie seine Vorhersagen bewerten können - er hat nur Vorhersagen für die letzten 3 Wahlen geliefert, die mir bekannt sind (gab es mehr?). Daher glaube ich nicht, dass es eine Möglichkeit gibt, sein Modell fair zu bewerten, es sei denn, Sie hatten das Modell tatsächlich in der Hand und konnten es anhand simulierter Daten bewerten. Aber es gibt noch einige interessante Dinge, die Sie anschauen könnten. Ich denke zum Beispiel, es wäre interessant zu sehen, wie genau er die Stimmanteile von Bundesstaat zu Bundesstaat zu einem bestimmten Zeitpunkt vorhergesagt hat, z. B. eine Woche vor der Wahl. Wenn Sie dies für mehrere Zeitpunkte wiederholen, z. B. für eine Woche, einen Monat, 6 Monate und ein Jahr, können Sie einige interessante Erklärungen für seine Vorhersagen abgeben. Eine wichtige Einschränkung: Die Ergebnisse sind in den einzelnen Bundesstaaten einer Wahl stark korreliert, sodass Sie nicht wirklich sagen können, dass Sie 51 * 3 Bundesstaaten-unabhängige Vorhersageinstanzen haben. . Aber vielleicht würde ich sowieso so darüber nachdenken, nur damit Sie genug Daten haben, um irgendetwas Sinnvolles damit zu tun.
quelle
Für jede einzelne Vorhersage können Sie nicht mehr als wir sagen, ob die Behauptung "Diese Münze hat eine 60% ige Chance, Köpfe hochzuziehen" von einem einzigen Wurf beinahe richtig ist.
Sie können jedoch seine Methodik anhand vieler Vorhersagen beurteilen - für eine bestimmte Wahl macht er viele Vorhersagen, nicht nur über die Präsidentschaftswahl insgesamt, sondern auch über die Wahl des Präsidenten und über viele andere Rassen (House, Senat, Gubnertorial) und so weiter), und er wendet im Laufe der Zeit auch weitgehend ähnliche Methoden an.
Es gibt viele Möglichkeiten, diese Einschätzung durchzuführen (einige davon sind ziemlich ausgefeilt), aber wir können uns einige relativ einfache Möglichkeiten ansehen, um einen Eindruck davon zu bekommen. Beispielsweise könnten Sie die Vorhersagen der Wahrscheinlichkeit eines Gewinns in Bänder von z. B. (50-55%, 55-65% usw.) aufteilen und dann sehen, welcher Anteil der Vorhersagen in diesem Band aufgetreten ist. Der Anteil der 50-55% Prognosen, die sich bewährt haben, sollte zwischen 50-55% liegen, je nachdem, wo der Durchschnitt lag (zuzüglich einer Spanne für zufällige Abweichungen *).
Durch diesen Ansatz (oder verschiedene andere Ansätze) können Sie sehen, ob die Verteilung der Ergebnisse mit den Vorhersagen über eine Wahl oder über mehrere Wahlen konsistent war (wenn ich mich recht entsinne, denke ich, dass seine Vorhersagen öfter richtig waren, als sie hätten sein sollen) , was darauf hindeutet, dass seine Standardfehler im Durchschnitt leicht überschätzt wurden).
* Wir müssen vorsichtig sein, wie wir das beurteilen, da die Vorhersagen nicht unabhängig sind.
quelle