Ich muss die Vorhersage von Zeitreihen automatisieren und kenne die Merkmale dieser Reihen (Saisonalität, Trend, Rauschen usw.) nicht im Voraus.
Mein Ziel ist es nicht, für jede Serie das bestmögliche Modell zu erhalten, sondern ziemlich schlechte Modelle zu vermeiden. Mit anderen Worten, jedes Mal kleine Fehler zu bekommen ist kein Problem, aber hin und wieder große Fehler zu bekommen.
Ich dachte, ich könnte dies erreichen, indem ich Modelle kombiniere, die mit verschiedenen Techniken berechnet wurden.
Das heißt, obwohl ARIMA der beste Ansatz für eine bestimmte Serie wäre, ist es möglicherweise nicht der beste für eine andere Serie. das gleiche gilt für die exponentielle Glättung.
Wenn ich jedoch ein Modell aus jeder Technik kombiniere, auch wenn ein Modell nicht so gut ist, bringt das andere die Schätzung näher an den tatsächlichen Wert.
Es ist bekannt, dass ARIMA besser für langfristig gut erzogene Serien funktioniert, während die exponentielle Glättung bei kurzfristig verrauschten Serien auffällt.
- Meine Idee ist es, Modelle zu kombinieren, die mit beiden Techniken generiert wurden, um robustere Prognosen zu erhalten. Ist das sinnvoll?
Es gibt viele Möglichkeiten, diese Modelle zu kombinieren.
- Wenn dies ein guter Ansatz ist, wie soll ich sie kombinieren?
Ein einfacher Mittelwert der Prognosen ist eine Option, aber vielleicht könnte ich bessere Vorhersagen erhalten, wenn ich den Mittelwert nach einem guten Maß des Modells gewichte.
- Wie würde die Varianz beim Kombinieren von Modellen behandelt?
quelle
Antworten:
Prognosen zu kombinieren ist eine hervorragende Idee. (Ich denke, es ist keine Übertreibung zu sagen, dass dies eines der wenigen Dinge ist, über die sich akademische Prognostiker einig sind.)
Ich habe vor einiger Zeit eine Arbeit geschrieben, in der verschiedene Möglichkeiten zur Gewichtung von Prognosen bei der Kombination untersucht wurden: http://www.sciencedirect.com/science/article/pii/S0169207010001032 Grundsätzlich hat die Verwendung von (Akaike-) Gewichten die Kombinationen nicht konsistent verbessert Ich persönlich würde zweimal überlegen, bevor ich ein komplexes Verfahren implementiere, das möglicherweise keinen eindeutigen Nutzen bringt (denken Sie jedoch daran, dass Kombinationen die Auswahl einzelner Methoden nach Informationskriterien durchweg übertrafen). Dies kann natürlich von der jeweiligen Zeitreihe abhängen.
Ich habe mir im obigen Artikel die Kombination von Vorhersageintervallen angesehen, aber nicht die Kombination von Varianz als solche. Ich erinnere mich an ein Papier, das vor nicht allzu langer Zeit in der IJF veröffentlicht wurde, mit diesem Schwerpunkt. Vielleicht möchten Sie in früheren Ausgaben der IJF nach "Kombinieren" oder "Kombinieren" suchen.
Einige andere Artikel, die sich mit der Kombination von Prognosen befasst haben, sind hier (ab 1989, aber eine Übersicht) und hier und hier (auch in Bezug auf die Dichte) und hier und hier. Viele von ihnen stellen fest, dass es immer noch wenig verstanden wird, warum Prognosekombinationen häufig einzelne ausgewählte Modelle übertreffen. Das vorletzte Papier befasst sich mit dem M3-Prognosewettbewerb. Eine ihrer wichtigsten Erkenntnisse war (Nummer (3) auf S. 458), dass "die Genauigkeit der Kombination verschiedener Methoden im Durchschnitt die spezifischen Methoden übertrifft, die kombiniert werden, und im Vergleich zu anderen Methoden gut abschneidet." Das letzte dieser Papiere stellt fest, dass Kombinationen nicht unbedingt eine bessere Leistung als einzelne Modelle erbringen, sondern dass sie das Risiko eines katastrophalen Ausfalls erheblich verringern können (was eines Ihrer Ziele ist). Weitere Literatur finden Sie im International Journal of Forecasting , dem Journal of Forecasting und für spezifischere Anwendungen in der Ökonometrie- oder Lieferkettenliteratur.
quelle
Warum nicht weiter spezifizieren? Ich denke nicht, dass ein Modell, das Sie produzieren würden, besser oder gut genug sein könnte als eine bestimmte Wahl.
Wenn Sie jedoch Ihre Auswahl ein wenig auf die eingrenzen können, auf die Sie testen können, und die Dateneingabe standardisiert werden kann, warum nicht ein automatisiertes Testverfahren in R schreiben?
Angenommen, Sie entscheiden, dass Ihre Daten in einen Bereich fallen, der von fünf Modellen sowie einem "Fallback" geschätzt wird. Angenommen, Sie können die Eingabe durch verschiedene Tests charakterisieren. Dann schreiben Sie einfach einen R-Algorithmus (oder ein ähnliches Programm), der dies für Sie ausführt. Dies funktioniert, wenn Sie ein Flussdiagramm erstellen können, welches Modell basierend auf Testdaten ausgeführt werden soll, dh wenn ein Punkt des Entscheidungsbaums binär ist.
Wenn dies keine Option ist, da die Entscheidung möglicherweise nicht binär ist, empfehle ich Ihnen, ein Bewertungssystem zu implementieren, das auf anwendbaren Tests basiert, und einige simulierte Daten für "Extremfälle" durch Ihr Raster zu führen, um festzustellen, ob die Ergebnisse Ihren Wünschen entsprechen.
Sie können diese Dinge natürlich kombinieren, zum Beispiel kann das Testen auf Nichtstationarität ein definitives Ja-Nein ergeben, während andere Attribute in einen Bereich wie Multikollinearität fallen können.
Sie können dies zuerst auf Papier zeichnen, dann erstellen und mit bekannten Verteilungen simulieren, die Sie erwarten.
Führen Sie dann einfach das R-Programm jedes Mal aus, wenn neue Daten eintreffen. Ich sehe keine Notwendigkeit, mehrere Modelle mit den Rechenfähigkeiten zu kombinieren, über die Sie höchstwahrscheinlich verfügen.
quelle
Es gibt schöne und einfache Formeln zum Kombinieren von zwei Prognosemethoden. Sie gewichten sie einfach, indem Sie die erste mit a und die andere mit (1 - a) multiplizieren, wobei a durch Minimieren der Varianz dieser kombinierten Prognose ermittelt wird. Da Sie die Fehler beider Prognosemethoden kennen, können Sie die Fehler der Kombination berechnen, die von "a" abhängt. Die Berechnung ist einfach, wenn der Mittelwert jeder Methode = 0 ist. Für die Kombination von mehr als 2 Methoden sind die Formeln immer noch "einfach" in dem Sinne, dass Sie sie analytisch "von Hand" berechnen oder auch die Solver-Option von EXCEL verwenden können
quelle