Regularisierung für ARIMA-Modelle

15

Ich kenne die Regularisierung nach LASSO, Ridge und Elastic-Net in linearen Regressionsmodellen.

Frage:

  1. Kann diese (oder eine ähnliche) Art der bestraften Schätzung auf die ARIMA-Modellierung angewendet werden (mit einem nicht leeren MA-Teil)?

Beim Erstellen von ARIMA-Modellen scheint es üblich zu sein, eine vorgewählte maximale Verzögerungsreihenfolge ( , ) zu berücksichtigen und dann eine optimale Reihenfolge für und z durch Minimieren von AIC oder AICc. Aber könnte stattdessen Regularisierung verwendet werden?pmax p p m a x q q m a xqmaxppmaxqqmax

Meine weiteren Fragen sind:

  1. Können wir alle Terme bis ( , ) einschließen , aber die Größe der Koeffizienten bestrafen (möglicherweise bis auf Null)? Wäre das sinnvoll? q m a xpmaxqmax
  2. Wenn ja, wurde das in R oder einer anderen Software implementiert? Wenn nicht, was war das Problem?

Eine etwas ähnliche Post gefunden werden kann hier .

Richard Hardy
quelle
1
+1 für eine sehr gute Frage. Da P, Q diskrete Werte sind, kann es effizienter sein, eine Gittersuche durchzuführen, um die optimale Ordnung von P, Q & le;
Prognose
2
Ich bin froh, dass es dir gefallen hat! Ja, eine Rastersuche ist eine der Optionen im Framework, die ich als "die übliche" bezeichne. Dort kann man über ein Raster möglicher Kombinationen von (p,q) von (0,0) bis (p_ {max}, q_ {max}) suchen (pmax,qmax). Dies ist jedoch immer noch Teil des "üblichen Rahmens". Als Alternative bin ich daran interessiert, alle Verzögerungen beizubehalten, aber die Größe der Koeffizienten zu bestrafen.
Richard Hardy
1
columbia.edu/~sn2294/papers/forecast.pdf LASSO funktioniert angeblich besser, da Sie einige Verzögerungen überspringen können, anstatt ein Maximum zu setzen. Das gleiche kann durch AIC gemacht werden, aber dann wird es rechenintensiv.
Cagdas Ozgenc
1
@CagdasOzgenc, ich habe das Papier durchgesehen, aber es scheint sich nicht um Regularisierung zu handeln, die auf ARIMA-Modelle angewendet wird (obwohl ARMA-Modelle im Kontext von Informationskriterien erwähnt werden). Könnten Sie bitte darauf hinweisen, welcher Teil des Papiers für meine Fragen relevant ist?
Richard Hardy
1
5.3 Die Tabelle enthält ARMAX-Modelle. Die Ergebnisse gelten für ARMA-Modelle.
Cagdas Ozgenc

Antworten:

9

Beantwortung von Frage 1.

Chen & Chan "Subset-ARMA-Auswahl über das adaptive Lasso" (2011) * verwenden eine Problemumgehung, um die rechnerisch anspruchsvolle Maximum-Likelihood-Schätzung zu vermeiden. Sie zitieren das Papier

Schlagen Sie vor, eine optimale Teilmenge des ARMA-Modells zu finden, indem Sie eine adaptive Lasso-Regression der Zeitreihe an ihre eigenen Verzögerungen und die der Residuen anpassen, die durch die Anpassung einer langen Autoregression an die s erhalten werden. <...> Unter milden Gleichmäßigkeitsbedingungen erreicht das vorgeschlagene Verfahren die Orakeleigenschaften, dh es identifiziert das korrekte ARMA-Teilmengenmodell mit einer Wahrscheinlichkeit von eins, wenn die Stichprobengröße bis unendlich ansteigt, und <...> die Schätzer der Nicht-Null-Koeffizienten sind asymptotisch normal, wobei die Grenzverteilung dieselbe ist wie die, wenn die Null-Koeffizienten a priori bekannt sind.y tytyt

Optional schlagen sie eine Maximum-Likelihood-Schätzung und Modelldiagnose für das ausgewählte ARMA-Teilmodell vor.


Wilms et al. "Sparsame Identifizierung und Schätzung hochdimensionaler AutoRegressive Moving Averages von Vektoren" (2017) bietet noch mehr als ich erwartet habe. Anstelle eines univariaten ARIMA-Modells verwenden sie einen Vektor ARMA (VARMA) in hohen Dimensionen und einen Abzug für die Schätzung und die Auswahl der Verzögerungsreihenfolge. Sie präsentieren den Schätzalgorithmus und entwickeln einige asymptotische Ergebnisse.L1

Insbesondere wenden sie ein zweistufiges Verfahren an. Man betrachte ein VARMA-Modell das geschätzt werden muss, aber die Verzögerung die Ordnungen und sind nicht bekannt. p q

yt=l=1pΦlyt-l+m=1qΘmεt-m+εt
pq
  • In Stufe 1 approximieren sie das VARMA-Modell durch ein VAR-Modell höherer Ordnung und schätzen es unter Verwendung eines hierarchischen VAR-Schätzers, der die autoregressiven Parameter mit einer auf Verzögerungen basierenden hierarchischen Gruppen-Lasso-Strafe belegt.
    (Die Verzögerungsreihenfolge wird auf . Die Modellgleichungen werden gemeinsam geschätzt und die Frobenius-Norm der Fehler wird mit einer hierarchischen Gruppe minimiert -lasso Strafe für die Regressionskoeffizienten.) Sie erhalten Residuen , die als Proxys für die wahren Fehler in Stufe 2 verwendet werden sollen.| | y - y | | F 2 ε :=y - y1.5T||y-y^||2F
    ε^: =y-y^

  • In Stufe 2 schätzen sie ein VARX-Modell, wobei X verzögerte Residuen aus Stufe 1 darstellt. Das heißt, sie minimieren ein VARMA-Modell, verwenden jedoch geschätzte Residuen anstelle von wahren Fehlern, wodurch derselbe Schätzer (hierarchisches Gruppen-Lasso) wieder wie in Stage kann 1. ( und sind auf .)

    yt=l=1p^Φlyt-l+m=1q^Θmε^t-m+ut,

    p^q^1.5T

Der Ansatz von Wilms et al. ist im R-Paket "bigtime" implementiert .


Verweise


* Danke an @hejseb für den Link.

Richard Hardy
quelle
2
Dieses Arbeitspapier ist sehr frisch und wurde erst gestern auf arXiv veröffentlicht.
Richard Hardy
Gibt es eine Implementierung in Python oder R?
David Masip
@ DavidMasip finden Sie im aktualisierten Beitrag für eine R-Implementierung.
Richard Hardy