Wie kann der AIC oder BIC anstelle des Zug- / Test-Split verwendet werden?

Ich bin kürzlich auf mehrere "informelle" Quellen gestoßen, die darauf hinweisen, dass wir unter bestimmten Umständen, wenn wir den AIC oder BIC zum Trainieren eines Zeitreihenmodells verwenden, die Daten nicht in Test und Training aufteilen müssen - wir können alle verwenden die Daten für das Training. (Zu den Quellen gehören unter anderem eine Diskussion über Rob Hyndmans Blogbeitrag zum Lebenslauf , diese Präsentation von Stanford oder Abschnitt 4 dieses Textes ).

Insbesondere scheinen sie darauf hinzudeuten, dass der AIC oder BIC verwendet werden kann, wenn der Datensatz zu klein ist, um eine Zug- / Testaufteilung zu ermöglichen.

Rob Hyndmans Kommentar zum Beispiel: "Es ist viel effizienter, AIC / BIC zu verwenden, als Testsätze oder Lebensläufe zu verwenden, und es wird wichtig für kurze Zeitreihen, in denen nicht genügend Daten vorhanden sind, um etwas anderes zu tun."

Ich kann jedoch keine Texte oder Papiere finden, die dies im Detail diskutieren.

Eine Sache, die mich besonders verwirrt, ist, dass AIC und BIC asymptotisch zur Kreuzvalidierung tendieren, was bedeutet, dass sie, wenn möglich, den Lebenslauf für große Datenmengen ersetzen würden - was der Idee widerspricht, dass sie für kleine Datenmengen nützlich sind.

Kann mich jemand auf eine formelle Diskussion (Buchkapitel, Artikel, Tutorials) dieser Idee hinweisen?

time-series cross-validation aic train bic Skander H.
quelle

In Kapitel 5.5 dieses Buches wird erläutert, wie viele dieser Modellauswahlkriterien entstehen. Sie beginnen mit Akaikes FPE-Kriterium für AR-Modelle und diskutieren dann AIC, AICc und BIC. Sie gehen ziemlich gründlich durch die Ableitungen.

Gemeinsam ist diesen, dass sie untersuchen, was passiert, wenn Sie einige beobachtete In-Sample-Daten , um die Modellparameter zu schätzen, und dann eine Verlustfunktion (mittlerer quadratischer Vorhersagefehler oder KL-Divergenz) auf einige unbeobachtete untersuchen / hypothetische Out-of-Sample-Daten $\{X_t\}$ $\{Y_t\}$ Dies ergibt sich aus der Verwendung des geschätzten Modells für diese neuen Daten. Die Hauptideen sind, dass a) Sie die Erwartung in Bezug auf alle Daten annehmen und 2) einige asymptotische Ergebnisse verwenden, um Ausdrücke für einige der Erwartungen zu erhalten. Die Menge aus (1) gibt Ihnen die erwartete Gesamtleistung, aber (2) setzt voraus, dass Sie viel mehr Daten haben als Sie tatsächlich haben. Ich bin kein Experte, aber ich gehe davon aus, dass Kreuzvalidierungsansätze auch auf diese Leistungsmaßstäbe abzielen. Anstatt die Daten außerhalb der Stichprobe als hypothetisch zu betrachten, verwenden sie reale Daten, die von den Trainingsdaten abgespalten wurden.

Das einfachste Beispiel ist das FPE-Kriterium. Angenommen, Sie schätzen Ihr AR-Modell auf die gesamten Daten (ähnlich wie der Testsatz) und erhalten . Dann ist der erwartete Verlust für die nicht beobachteten Daten (es ist hypothetisch, nicht wie bei der Kreuzvalidierung aufgeteilt) $\{\hat{\phi}_i\}_i$ $\{Y_t\}$

\begin{aligned} E (Y_{n + 1} - {\hat{ϕ}}_{1} Y_{n} - \dots - {\hat{ϕ}}_{p} Y_{n + 1 - p})^{2} \\ = E (Y_{n + 1} - ϕ_{1} Y_{n} - \dots - ϕ_{p} Y_{n + 1 - p} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - - ϕ_{p}) {Y.}_{n + 1 - - p})^{2} \\ = E. ({Z.}_{t} + ({\hat{ϕ}}_{1} - - ϕ_{1}) {Y.}_{n} - - \dots - - ({\hat{ϕ}}_{p} - - ϕ_{p}) {Y.}_{n + 1 - - p})^{2} \\ = σ^{2} + E. [E. [(({\hat{ϕ}}_{1} - - ϕ_{1}) {Y.}_{n} - - \dots - - ({\hat{ϕ}}_{p} - - ϕ_{p}) {Y.}_{n + 1 - - p})^{2} | {{X.}_{t}}}]]]] \\ = σ^{2} + E. [\sum_{ich = 1}^{p} \sum_{j = 1}^{p} ({\hat{ϕ}}_{ich} - - ϕ_{ich}) ({\hat{ϕ}}_{j} - - ϕ_{j}) E. [{Y.}_{n + 1 - - ich} {Y.}_{n + 1 - - j} | {{X.}_{t}}}]]]] \\ = σ^{2} + E. [({\hat{ϕ}}_{p} - - ϕ_{p})^{'} Γ_{p} ({\hat{ϕ}}_{p} - - ϕ_{p})]] \\ (Tippfehler im Buch: n^{- - 1 /. 2} sollte sein n^{1 /. 2}) & \approx σ^{2} (1 + \frac{p}{n}) \\ (n {\hat{σ}}^{2} /. σ^{2} ca. χ_{n - - p}^{2}) & \approx \frac{n {\hat{σ}}^{2}}{n - - p} (1 + \frac{p}{n}) = {\hat{σ}}^{2} \frac{n + p}{n - - p} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

Ich kenne keine Papiere, die die Leistung dieser Kriterien empirisch mit Kreuzvalidierungstechniken vergleichen. Dieses Buch enthält jedoch viele Ressourcen zum Vergleich von FPE, AIC, AICc und BIC.

Taylor
quelle

Wie kann der AIC oder BIC anstelle des Zug- / Test-Split verwendet werden?

Antworten: