Die Wettervorhersage sagt die Regenwahrscheinlichkeit für einen Tag voraus oder nicht. Wenn ich den gleichen Tag viele Male wiederholen könnte, könnte ich zählen, wie oft es regnet oder nicht, also könnte ich mit der Vorhersage vergleichen, um zu wissen, ob die Vorhersage richtig ist.
Tatsache ist, dass es nicht möglich ist, einen Tag zu wiederholen. Die einzigen Daten, die ich habe, sind die entsprechenden Vorhersagen für viele verschiedene Tage und nur ein Verteilungspunkt für jede Vorhersage.
Wie kann ich also wissen, ob die Wahrscheinlichkeiten für die Wettervorhersage korrekt sind?
Diese Frage kann auf jede Vorhersage ausgedehnt werden, bei der ich die Phänomene nicht viele Male wiederholen kann, um eine vollständige Verteilung zu erhalten und die Vorhersage zu verifizieren.
Antworten:
"Diese Frage kann erweitert werden ..." - das ist absolut richtig. Aber natürlich, wenn Sie den ganzen Weg zurücktreten möchten, ist dies für jedes Phänomen der Fall . Jedes Mal, wenn Sie eine Münze werfen, wird sie ein wenig verbeult und ändert die Wahrscheinlichkeit, dass Köpfe auftauchen. Jedes Mal, wenn Sie auf einen Korb schießen, sind Ihre Arme etwas müder (oder etwas ausgeruhter) und Ihre Chance, dass der Ball hineingeht, ist etwas anders.
Als angewandter Statistiker versucht ein enormer Teil Ihrer Arbeit festzustellen, welche Ereignisse ähnlich genug sind , um als gleich gewertet zu werden. Sie werden niemals eine Gruppe von Menschen haben, die Drogen nehmen, oder eine Gruppe von Studenten, die getestet werden, oder eine Gruppe von Städten, die genau dieselben Richtlinien umsetzen . Ein Großteil Ihrer Arbeit besteht darin, herauszufinden, worauf Sie achten müssen, damit sie, wenn Sie fertig sind, ähnlich genug sind , um Ihnen eine aussagekräftige Antwort zu geben.
Wenn es um Vorhersagen geht, können Sie am besten versuchen, Dinge zu trainieren und dann zu testen, die Ihrer Meinung nach ausreichend ähnlich sind. Bei der Kreuzvalidierung geht es darum zu untersuchen, wie intern Ihre Daten und Ihr Modell konsistent sind. Wenn Sie einige trainieren und den Rest genau vorhersagen können, ist eine solide Interpretation, dass die beiden Datensätze "ähnlich genug" sind. (Wenn Sie den anderen enormen Teil davon ausgehen, dass Ihr Modell korrekt ist.) Für beobachtete Daten können Sie also die Vorhersagegenauigkeit durch Kreuzvalidierung bewerten.
Für die unsichtbare Zukunft lautet die beste Antwort auf Ihre Frage jedoch nur: "Damit die Vorhersagen korrekt sind, müssen Sie davon ausgehen, dass das Wetter von morgen aus derselben Verteilung stammt wie das gesamte Wetter, für das das Vorhersagemodell geeignet war." Und jede Frage, wie nahe sie kommt, hängt von einem bestimmten Modell und einer bestimmten Präferenz ab.
quelle
Dies ist eine großartige und häufig gestellte Frage. Die Eigenschaft, an der Sie interessiert zu sein scheinen, ist Ergodizität . Wenn ein stochastischer Prozess, an dem Sie interessiert sind, ergodisch ist, können (ungefähr) diese "unterschiedlichen Tages" -Beobachtungen, die Sie sehen, kombiniert werden, um zu beurteilen, wie erfolgreich die Wettervorhersagen sind. kann kombiniert werden, um einige Konvergenzergebnisse abzuleiten. Wenn der Prozess jedoch keine Ergodizität aufweist, müsste man - wie Sie sagten - denselben Tag mehrmals beobachten und prüfen, ob diese Regenwahrscheinlichkeit korrekt ist oder nicht. Die Ergodizität ist mit realen Daten schwer zu überprüfen und wird normalerweise als Annahme angesehen.
Eine strenge, aber empirische Behandlung der Ergodizität finden Sie in diesem Kapitel des Zeitreihenbuchs von E. Zivot. Sehen Sie sich dieses Video ab 16:55 an , um ein sehr schönes intuitives Beispiel zu erhalten.
quelle
Die Zeitreihenökonometrie befasst sich mit einer ähnlichen Frage: Wenn und Zeitreihenvariablen sind, sollten Sie einer linearen Regression mit den beiden Variablen vertrauen? Die Antwort lautet "es kommt darauf an".yt xt
Es hängt davon ab, ob die beobachtete Beziehung zwischen den beiden Variablen auch in Zukunft wahr sein wird. Wenn und beide nicht stationär sind, kann die beobachtete Beziehung in Zukunft auseinander brechen. Wenn und beide stationär sind, sollte die beobachtete Beziehung in Zukunft gelten.yt xt yt xt
Hier ist ein simuliertes Beispiel. Die Variablen und sind beide nicht stationär. Obwohl das Regressionsmodell besagt, dass die beobachtete Beziehung stark ist (basierend auf p-Wert und ), ist das zeitversetzte schrecklich (das Modell ist weitaus schlechter als die Verwendung des Durchschnitts als Vorhersage).xt yt R2 R2
TLDR; Die Zukunft vorherzusagen ist schwer. Die lineare Regression unter Verwendung von Zeitreihendaten kann äußerst irreführend sein. Halten Sie einige Ihrer Daten basierend auf der sequentiellen Zeit aus (z. B. halten Sie die letzten 9 Quartale Ihrer Zeitreihe aus). Validieren Sie Ihr Modell anhand der Hold-Out-Daten.
quelle