Ich interessiere mich für die Modellauswahl in einer Zeitreiheneinstellung. Nehmen wir der Vollständigkeit halber an, ich möchte ein ARMA-Modell aus einem Pool von ARMA-Modellen mit unterschiedlichen Verzögerungsreihenfolgen auswählen. Die ultimative Absicht ist die Vorhersage .
Die Modellauswahl kann über erfolgen
- Kreuzvalidierung,
- Verwendung von Informationskriterien (AIC, BIC),
unter anderem Methoden.
Rob J. Hyndman bietet eine Möglichkeit zur Kreuzvalidierung für Zeitreihen . Bei relativ kleinen Stichproben kann die Stichprobengröße, die bei der Kreuzvalidierung verwendet wird, qualitativ von der ursprünglichen Stichprobengröße abweichen . Wenn die ursprüngliche Stichprobengröße beispielsweise 200 Beobachtungen beträgt, könnte man sich vorstellen, die Kreuzvalidierung zu starten, indem man die ersten 101 Beobachtungen auf 102, 103, ..., 200 Beobachtungen erweitert, um 100 Kreuzvalidierungsergebnisse zu erhalten. Es ist klar, dass ein Modell, das für 200 Beobachtungen einigermaßen sparsam ist, für 100 Beobachtungen zu groß sein kann und daher einen großen Validierungsfehler aufweist. Daher wird die Kreuzvalidierung wahrscheinlich systematisch zu sparsamen Modellen Vorschub leisten. Dies ist ein unerwünschter Effekt, da die Stichprobengrößen nicht übereinstimmen .
Eine Alternative zur Kreuzvalidierung ist die Verwendung von Informationskriterien für die Modellauswahl. Da mir die Prognose am Herzen liegt, würde ich AIC verwenden. Auch wenn AIC asymptotisch der Minimierung der Ein-Schritt-Prognose von MSE für Zeitreihenmodelle außerhalb der Stichprobe entspricht (gemäß diesem Beitrag von Rob J. Hyndman), bezweifle ich, dass dies hier seit der Stichprobe relevant ist Größen, die mir wichtig sind, sind nicht so groß ...
Frage: Sollte ich für kleine / mittlere Stichproben die AIC anstelle der Kreuzvalidierung für Zeitreihen wählen?
quelle
Antworten:
Hm - wenn Ihr letztendliches Ziel die Vorhersage ist, warum beabsichtigen Sie überhaupt, Modelle auszuwählen? Soweit ich weiß, ist es sowohl in der "traditionellen" statistischen Literatur als auch in der Literatur zum maschinellen Lernen gut etabliert, dass die Modellmittelung in Bezug auf die Vorhersage überlegen ist. Vereinfacht ausgedrückt bedeutet Modellmittelung, dass Sie alle plausiblen Modelle schätzen, sie alle vorhersagen lassen und ihre Vorhersagen mit dem relativen Modellbeweis mitteln.
Eine nützliche Referenz zum Starten ist https://journals.sagepub.com/doi/10.1177/0049124104268644
Sie erklären dies ganz einfach und verweisen auf die einschlägige Literatur.
Hoffe das hilft.
quelle
Abgesehen von theoretischen Überlegungen wird das Akaike-Informationskriterium nur durch die Freiheitsgrade bestraft. Was folgt, AIC berücksichtigt Unsicherheiten in den Daten ( -2LL ) und geht davon aus, dass mehr Parameter zu einem höheren Risiko einer Überanpassung führen ( 2k ). Bei der Kreuzvalidierung wird lediglich die Testsatzleistung des Modells ohne weitere Annahmen betrachtet.
Wenn Ihnen die Vorhersagen am wichtigsten sind und Sie davon ausgehen können, dass die Testsätze den realen Daten ziemlich ähnlich sind, sollten Sie eine Kreuzvalidierung durchführen. Das mögliche Problem besteht darin, dass bei kleinen Daten durch Aufteilen kleine Schulungs- und Testsätze anfallen. Weniger Daten für das Training sind schlecht, und weniger Daten für den Testsatz machen die Kreuzvalidierungsergebnisse unsicherer (siehe Varoquaux, 2018 ). Wenn Ihre Teststichprobe nicht ausreicht, müssen Sie möglicherweise AIC verwenden. Beachten Sie jedoch, was es misst und welche Annahmen es treffen kann.
Andererseits gibt Ihnen AIC, wie bereits in den Kommentaren erwähnt, asymptomatische Garantien, was bei kleinen Stichproben nicht der Fall ist. Kleine Stichproben können ebenfalls über die Unsicherheit in den Daten irreführend sein.
quelle
Meine Idee ist, beides zu tun und zu sehen. Die Verwendung von AIC ist direkt. Kleiner der AIC, besser das Modell. Aber man kann sich nicht auf AIC verlassen und sagen, dass ein solches Modell das beste ist. Wenn Sie also über einen Pool von ARIMA-Modellen verfügen, überprüfen Sie die Prognosen für die vorhandenen Werte und ermitteln Sie, welches Modell den vorhandenen Zeitreihendaten am nächsten kommt. Überprüfen Sie zweitens auch den AIC und treffen Sie eine gute Wahl, wenn Sie beides berücksichtigen. Es gibt keine festen Regeln. Entscheide dich einfach für das Modell, das das Beste vorhersagt.
quelle