Ich habe eine Prognosemethode ausprobiert und möchte überprüfen, ob meine Methode korrekt ist oder nicht.
Meine Studie vergleicht verschiedene Arten von Investmentfonds. Ich möchte den GCC-Index als Benchmark für einen von ihnen verwenden, aber das Problem ist, dass der GCC-Index im September 2011 gestoppt wurde und meine Studie von Januar 2003 bis Juli 2014 ist. Daher habe ich versucht, einen anderen Index zu verwenden, den MSCI-Index. eine lineare Regression durchzuführen, aber das Problem ist, dass dem MSCI-Index Daten von September 2010 fehlen.
Um dies zu umgehen, habe ich Folgendes getan. Sind diese Schritte gültig?
Dem MSCI-Index fehlen Daten für September 2010 bis Juli 2012. Ich habe sie "bereitgestellt", indem ich für fünf Beobachtungen gleitende Durchschnitte angewendet habe. Ist dieser Ansatz gültig? Wenn ja, wie viele Beobachtungen sollte ich verwenden?
Nachdem ich die fehlenden Daten geschätzt hatte, führte ich eine Regression des GCC-Index (als abhängige Variable) gegenüber dem MSCI-Index (als unabhängige Variable) für den für beide Seiten verfügbaren Zeitraum (von Januar 2007 bis September 2011) durch und korrigierte dann das Modell von allen Problemen. Für jeden Monat ersetze ich das x durch die Daten aus dem MSCI-Index für die Ruhezeit. Ist das gültig?
Unten finden Sie die Daten im Format "Kommagetrennte Werte", die die Jahre nach Zeilen und die Monate nach Spalten enthalten. Die Daten sind auch über diesen Link verfügbar .
Serie GCC:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709
2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306
2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817
2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865
2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911
2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192
2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085
2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267
2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802
2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA
Serie MSCI:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223
2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127
2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14
2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA
2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447
2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842
2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA
quelle
Antworten:
Mein Vorschlag ähnelt dem, was Sie vorschlagen, außer dass ich ein Zeitreihenmodell anstelle von gleitenden Durchschnitten verwenden würde. Das Framework von ARIMA-Modellen ist auch geeignet, um Prognosen zu erhalten, die nicht nur die Serie MSCI als Regressor enthalten, sondern auch Verzögerungen der GCC-Serie, die möglicherweise auch die Dynamik der Daten erfassen.
Zunächst können Sie ein ARIMA-Modell für die Serie MSCI anpassen und die fehlenden Beobachtungen in dieser Serie interpolieren. Anschließend können Sie ein ARIMA-Modell für die Serie GCC unter Verwendung von MSCI als exogene Regressoren anpassen und die Prognosen für GCC basierend auf diesem Modell erhalten. Dabei müssen Sie vorsichtig mit den Brüchen umgehen, die in der Serie grafisch beobachtet werden und die Auswahl und Anpassung des ARIMA-Modells verzerren können.
Hier ist, was ich bei dieser Analyse bekomme
R
. Ich benutze die Funktionforecast::auto.arima
, um das ARIMA-Modell auszuwählen undtsoutliers::tso
mögliche Pegelverschiebungen (LS), temporäre Änderungen (TC) oder additive Ausreißer (AO) zu erkennen.Dies sind die einmal geladenen Daten:
Schritt 1: Passen Sie ein ARIMA-Modell an die Serie MSCI an
Obwohl die Grafik das Vorhandensein einiger Unterbrechungen zeigt, wurden von keine Ausreißer erkannt
tso
. Dies kann auf die Tatsache zurückzuführen sein, dass in der Mitte der Stichprobe mehrere Beobachtungen fehlen. Wir können dies in zwei Schritten erledigen. Passen Sie zunächst ein ARIMA-Modell an und verwenden Sie es, um fehlende Beobachtungen zu interpolieren. Passen Sie zweitens ein ARIMA-Modell für die interpolierte Serie an, um mögliche LS, TC, AO zu überprüfen, und verfeinern Sie die interpolierten Werte, wenn Änderungen gefunden werden.Wählen Sie das ARIMA-Modell für die Serie MSCI:
Füllen Sie fehlende Beobachtungen nach dem in meiner Antwort auf diesen Beitrag beschriebenen Ansatz aus :
Passen Sie ein ARIMA-Modell an die gefüllte Serie an
msci.filled
. Nun werden einige Ausreißer gefunden. Bei Verwendung alternativer Optionen wurden jedoch unterschiedliche Ausreißer festgestellt. Ich werde die in den meisten Fällen festgestellte Verschiebung des Niveaus im Oktober 2008 beibehalten (Beobachtung 18). Sie können zum Beispiel diese und andere Optionen ausprobieren.Das gewählte Modell ist jetzt:
Verwenden Sie das vorherige Modell, um die Interpolation fehlender Beobachtungen zu verfeinern:
Die anfängliche und die endgültige Interpolation können in einem Diagramm verglichen werden (hier nicht gezeigt, um Platz zu sparen):
Schritt 2: Passen Sie ein ARIMA-Modell mit msci.filled2 als exogenem Regressor an GCC an
Ich ignoriere die fehlenden Beobachtungen zu Beginn von
msci.filled2
. An dieser Stelle fand ich einige Schwierigkeiten zu verwenden ,auto.arima
mit entlangtso
, so dass ich von Hand mehr ARIMA - Modelle in ausprobierttso
und schließlich entscheiden sie die ARIMA (1,1,0).Die Darstellung von GCC zeigt eine Verschiebung zu Beginn des Jahres 2008. Es scheint jedoch, dass sie bereits vom Regressor MSCI erfasst wurde und keine zusätzlichen Regressoren enthalten waren, außer einem additiven Ausreißer im November 2008.
Die Darstellung der Residuen deutete nicht auf eine Autokorrelationsstruktur hin, aber die Darstellung deutete auf eine Pegelverschiebung im November 2008 und einen additiven Ausreißer im Februar 2011 hin. Durch Hinzufügen der entsprechenden Interventionen war die Diagnose des Modells jedoch schlechter. Zu diesem Zeitpunkt ist möglicherweise eine weitere Analyse erforderlich. Hier werde ich weiterhin die Prognosen basierend auf dem letzten Modell erhalten
fit3
.quelle
quelle
2 Scheint in Ordnung zu sein. Ich würde damit gehen.
Zu 1. Ich würde Ihnen empfehlen, ein Modell zu trainieren, um GCC unter Verwendung aller im Datensatz verfügbaren Funktionen vorherzusagen (die ab September 2011 keine NA sind) (lassen Sie die Zeilen, die vor dem September 2011 einen NA-Wert haben, während des Trainings aus). Das Modell sollte sehr gut sein (verwenden Sie die K-fache Kreuzvalidierung). Prognostizieren Sie nun den GCC für den Zeitraum ab September 2011.
Alternativ können Sie ein Modell trainieren, das MSCI vorhersagt, und es verwenden, um die fehlenden MSCI-Werte vorherzusagen. Trainieren Sie nun ein Modell, um GCC mithilfe von MSCI vorherzusagen, und prognostizieren Sie dann GCC für den Zeitraum September 2011 und danach
quelle