Zuweisen von Gewichten zu einer gemittelten Prognose

8

Ich habe in diesem Sommer gelernt, wie man Prognosen erstellt, und ich habe Rob Hyndmans Buch Forecasting: Principles and Practice verwendet. Ich habe R verwendet, aber meine Fragen beziehen sich nicht auf Code. Bei den von mir verwendeten Daten habe ich festgestellt, dass eine durchschnittliche Prognose mehrerer Modelle zu höheren Genauigkeitsstufen geführt hat als jedes einzelne Modell für sich.

Kürzlich habe ich einen Blog gelesen, in dem es darum ging, Prognosemethoden zu mitteln und ihnen Gewichte zuzuweisen. Nehmen wir in meinem Fall an, ich ordne meinem Datensatz 11 verschiedene Modelle zu (Arima, ETS, Holt Winters, naiv, snaive usw.), und ich möchte einige davon mitteln, um eine Prognose zu erhalten. Hat jemand Erfahrung damit oder kann ich auf einen Artikel verweisen, der einen Einblick in die beste Vorgehensweise gibt?

Ab sofort verwende ich die Kreuzvalidierung und den mittleren absoluten Fehler, um herauszufinden, welche Modelle am besten und welche am schlechtesten abschneiden. Ich kann dies sogar verwenden, um die Top-Anzahl von Modellen zu identifizieren.

Ich denke meine Fragen sind

1) Wie viele Modelle würden Sie zur Auswahl vorschlagen? (2,3,4,5,6 usw.)

2) Irgendwelche Ideen zu Gewichten? (50% zum Besten, 25% zum Zweitbesten, 15% zum Drittbesten, 10% zum Viertbesten usw.)

3) Sind diese Prognosemodelle redundant und sollten nicht berücksichtigt werden? (Arima, snaive, naiv, HWs "Additiv", ETS, HoltWinters exponentielle Glättung, HoltWinters Glättung mit Trend, HoltWinters mit Trend / Saisonalität, multiple Regression)

Jake
quelle
Bitte lesen Sie den Artikel, in dem beschrieben wird, wie Gewichte zugewiesen werden.
Prognostiker
Ich habe mich geirrt, dass es ein Artikel ist. Es befand sich tatsächlich auf einer ähnlichen Website wie diese, daher gibt es keine Glaubwürdigkeit.
Jake

Antworten:

10

Die Antworten auf Ihre Fragen in der richtigen Reihenfolge

Wie viele Modelle

Normalerweise so viele, wie Sie möchten, dies kann jedoch durch die Datenmenge begrenzt sein, über die Sie verfügen. Hängt auch von der Methode ab, mit der Sie die Gewichte ableiten (was ich weiter unten erläutere).

So weisen Sie Gewichte zu

Es gibt viele, hier sind die fünf beliebtesten auf meinem Kopf, obwohl keiner von ihnen den mittleren absoluten Fehler verwendet.

  1. Gleiche Gewichte für alle Modelle
    • Profis:
      1. Einfach, leicht zu implementieren
      2. Übertrifft häufig komplexere Techniken
      3. Sie können theoretisch so viele Modelle hinzufügen, wie Sie möchten
    • Nachteile:
      1. Kann zu stark vereinfacht sein
      2. Keine inhärente Methode zum Ranking von Modellen
    • Verweise
      1. Aiolfi, M. und A. Timmermann (2006), "Persistenz bei der Vorhersage der Leistung und bedingter Kombinationsstrategien", Journal of Econometrics, 35 (1-2), 31-53.
      2. Manescu, Cristiana und Ine Van Robays. "Prognose des Brent-Ölpreises: Berücksichtigung zeitlicher Schwankungen der prognostizierten Leistung." (2014).
  2. MSFE-Verhältnis (Inverse Mean Square Forecast Error) : FürM Modelle der kombinierten, h-Schritt voraus Prognose ist
    y^t+h=m=1Mwm,h,ty^t+h,m,wm,h,t=(1/msfem,h,t)kj=1M(1/msfej,h,t)k
    wo y^t+h,m ist die Punktprognose für h Schritte zur Zeit voraus t vom Modell m. In den meisten Anwendungenk=1.
    • Profis:
      1. Fester theoretischer Rückhalt
      2. Es gibt es schon eine Weile und es ist in der Literatur gut akzeptiert
      3. Sie können theoretisch so viele Modelle hinzufügen, wie Sie möchten
    • Nachteile:
      1. Berücksichtigt ausschließlich auf Punktschätzungsprognosen, wird nicht die gesamte Prognoseverteilung berücksichtigt (dh die meisten angewandten Modelle geben uns eine vollständige parametrische Verteilung für die Prognose, die Normalverteilung ist üblich, yt+h,mN(y^t+h,m,σt+h,m). Viele argumentieren, dass diese zusätzlichen parametrischen Informationen nicht nur durch Berücksichtigung genutzt werdeny^t+h,m führt zu suboptimalen Prognosen)
    • Verweise
      1. Bates, John M. und Clive WJ Granger. "Die Kombination von Prognosen." Oder (1969): 451-468.
      2. Massimiliano Marcellino ,. "Forecast Pooling für kurze Zeitreihen makroökonomischer Variablen", Working Papers 212, IGIER (Innocenzo Gasparini Institut für Wirtschaftsforschung), Bocconi University (2002).
  3. Bayesianische Prognosekombination : Für die Punktschätzungsprognosekombination lautet die Formel
    y^t+h=m=1Mw(m|y1,...,yt)y^t+h,m
    und die kombinierte Prognoseverteilung ist
    f(yt+h|y1,...,yt)=m=1Mw(m|y1,...,yt)fm(yt+h|y1,...,yt)
    wo fm ist der mth Modell Prognoseverteilung (ein pdf). Die Gewichte w(m|y1,...,yt) sind so, dass m=1Mw(m|y1,...,yt)=1 und w(m|y1,...,yt)>0 für alle m. Die Gewichte können entweder als die traditionelle hintere Wahrscheinlichkeit von jedem berechnet werdenmModell über Bayesian Model Averaging (BIC-ähnliche In-Sample-Technik, jedoch skaliert) oder durch Skalieren der Vorhersagewahrscheinlichkeit (Vorhersagedichte außerhalb der Stichprobe) jedes Modells. Ich verzichte darauf, genau zu zeigen, wie man die Gewichte der Kürze halber berechnet. Wenn Sie neugierig sind, siehe Referenzen
    • Profis:
      1. Berücksichtigt bei der Berechnung der Gewichte die gesamte Prognoseverteilung, nicht nur die Punktprognose
      2. Sie können theoretisch so viele Modelle hinzufügen, wie Sie möchten
    • Nachteile:
      1. Erfordert Kenntnisse der Bayes'schen Inferenz und Schätzung, die durchaus involviert sein können
      2. Nimmt an, dass mindestens einer der m Modelle ist der wahre Prozess der Datengenerierung, was eine starke Annahme ist.
      3. Erfordert vom Forscher, zusätzlich zu einem diskreten Prior vor allem Prioritäten für die Parameter in jedem Prognosemodell anzugeben m Modelle
    • Verweise
      1. Hoeting, Jennifer A. et al. "Bayesianische Modellmittelung." In Proceedings des AAAI-Workshops zur Integration mehrerer erlernter Modelle. 1998.
      2. Eklund, Jana und Sune Karlsson. "Prognosekombination und Modellmittelung mithilfe von Vorhersagemaßnahmen." Econometric Reviews 26.2-4 (2007): 329-363.
      3. Andersson, Michael K. und Sune Karlsson. "Bayesianische Prognosekombination für VAR-Modelle." Bayesian Econometrics (2008): 501 & ndash; 524.
  4. Optimale Vorhersagepools : Gleiche Idee wie die Bayes'sche Vorhersage, außer dass die Gewichte durch Maximieren der folgenden "Bewertungsfunktion" ermittelt werden (WLOG nimmt h = 1 an).
    maxwi=1tln[m=1Mwmfm(yi;y1,...,yi1)](1)
    s.t.m=1Mwm=1andwm0m
    wobei die prädiktive Dichte / Wahrscheinlichkeit des Modells ist, die entweder mit der Bayes'schen oder der häufigsten Methode berechnet werden kann (weitere Informationen hierzu finden Sie in den Referenzen). fmm
    • Profis:
      1. Berücksichtigt bei der Berechnung der Gewichte die gesamte Prognoseverteilung, nicht nur die Punktprognose
      2. Kann mit den häufigsten oder Bayes'schen Techniken implementiert werden und ist normalerweise einfacher zu schätzen als die herkömmliche Bayes'sche Vorhersagekombination
      3. Im Gegensatz zur herkömmlichen Bayes'schen Prognosekombination muss nicht davon ausgegangen werden, dass eines der Modelle der eigentliche Datenerzeugungsprozess istm
    • Nachteile:
      1. Da Gleichung (1) eine numerische Optimierung erfordert, ist die Anzahl der Modelle, die Sie einschließen können, durch die Menge der verfügbaren Daten begrenzt. Wenn einige Modelle stark korrelierte Vorhersagen liefern, kann die Optimierung von Gleichung (1) sehr schwierig sein
    • Verweise
      1. Geweke, John und Gianni Amisano. "Optimale Vorhersagepools." Journal of Econometrics 164.1 (2011): 130 & ndash; 141.
      2. Durham, Garland und John Geweke. "Verbesserung der Vorhersage von Vermögenspreisen, wenn alle Modelle falsch sind." Journal of Financial Econometrics 12.2 (2014): 278-306.
  5. Verschiedene andere auf Punktschätzungen basierende Techniken : (1) eine gewöhnliche Schätzung der kleinsten Quadrate der Gewichte, die durch Regression der tatsächlich realisierten Werte auf den Punktschätzungsvorhersagen erhalten werden ( ), (2) , bei denen die Modelle mit der schlechtesten Leistung fallen, bilden eine gleichgewichtete Kombination, (3) setzen die Gewichte, die dem Prozentsatz entsprechen, in dem eine Prognose das Mindest-MSFE usw. aufweist yt+h=β0+w1y^t+h,1+...+wMy^t+h,M+ut+h
    • Vor- und Nachteile: variieren je nach Technik
    • Verweise
      1. Timmermann, A. (2006), „Forecast Combinations“, Handbook of Economic Forecasting, 1, 135–196.

Sind die Prognosemodelle redundant / ausschließbar?

Die Holt-Winters-Modelle sind wahrscheinlich ähnlich, also werfen Sie vielleicht ein paar davon raus. Die Mittelung von Prognosen entspricht der Diversifizierung eines Finanzportfolios. Sie möchten, dass Ihre Modelle vielfältig sind. Bei einigen der oben genannten Mittelungstechniken schadet es nicht, redundante Modelle einzuschließen, bei anderen jedoch.

Sie können auch eine freundliche Einführung finden hier , mit paar mehr guten Möglichkeiten zur durchschnittlichen Prognosen (Constrained Least Squares zum Beispiel) zusammen mit einer R - Implementierung.

Zachary Blumenfeld
quelle
Tolle Infos, vielen Dank! Bei allen HoltWinter-Modellen habe ich derzeit 4 der Hauptvarianten aufgenommen. Was soll ich von denen behalten? Ich möchte nicht ein paar rauswerfen (und möglicherweise eines, das das Beste aus den 4 herausholt).
Jake
Insbesondere denke ich, dass es nach Ihrem eigenen Ermessen sein sollte. Im Allgemeinen möchten Sie Modelle beibehalten, die besser passen, z. B. niedrigster AIC / BIC oder ähnliches. Aber Sie kennen Ihre eigenen Daten besser als ich. Wenn Sie also zu diesem Thema recherchieren, können Sie eine fundiertere Entscheidung treffen als ich.
Zachary Blumenfeld
Nach meinen Recherchen können Sie AIC / BICs nicht zwischen einigen der Modelle vergleichen, die ich in meinen Listeninformationen hier @zachary Blumenfeld gefunden habe. Daher habe ich mich entschieden, entweder die MAE oder die RMSE zu vergleichen, die während meiner Kreuzvalidierungsschleife gefunden wurden.
Jake
4

Souds wie ein Artikel über das Erstellen von Ensembles.

  1. Die Anzahl der Modelle liegt in Ihrem eigenen Ermessen. Wenn ein prädiktiver Wert hinzugefügt wird, können Sie eine beliebige Anzahl von Modellen hinzufügen. Die Rechenzeit ist jedoch ein wichtiger Faktor. Aber wenn Sie 11 Modelle haben, würde ich zuerst sehen, ob ich die Korrelation zwischen den Modellen berechnen kann. Modelle mit einer hohen Korrelation fügen nicht viel hinzu. Sie sind besser dran, ein schlechteres, aber wenig korreliertes Modell hinzuzufügen.

  2. Hier kommt es auch auf dein Urteilsvermögen an.

  3. Alle Holtwinters-Modelle weisen eine hohe Korrelation miteinander auf. Vielleicht möchten Sie ein paar davon fallen lassen.

Ein guter Artikel über Ensembles wurde von MLWave geschrieben

Phiver
quelle