k-facher Lebenslauf der Prognose finanzieller Zeitreihen - ist die Leistung beim letzten Falten relevanter?

8

Ich arbeite an einem ANN-basierten Prognosemodell für eine finanzielle Zeitreihe. Ich verwende eine 5-fache Kreuzvalidierung und die durchschnittliche Leistung ist so. Die Leistung in der letzten Falte (die Iteration, bei der das letzte Segment nicht trainiert und zur Validierung verwendet wird) ist besser als der Durchschnitt.

Ist dies ein Zufall / datenabhängig oder ist die Validierungsleistung auf der letzten Falte normalerweise besser? (vermutlich, weil das Training mit allen vorhergehenden Daten eher mit den nachfolgenden Daten in Zeitreihen zusammenhängt)

Das fühlt sich ein bisschen wie eine seltsame Frage an, aber ich hoffe trotzdem auf einige Antworten. Danke im Voraus :)

Sieger
quelle
Interessante Frage; Ich würde sagen, dass es im Allgemeinen ein Fehler ist, einen Lebenslauf auf diese Weise zu erstellen, da der Lebenslauf davon ausgeht, dass es keine Informationen in der Reihenfolge der Objekte gibt, aber ich werde das Feld für lokale ts-Experten verlassen.

Antworten:

10

Mit Zeitreihen können Sie ein Prognosemodell nicht auf normale Weise durch Kreuzvalidierung testen, da Sie dann zukünftige Beobachtungen verwenden, um die Vergangenheit vorherzusagen. Sie dürfen nur vergangene Beobachtungen verwenden, um die Zukunft vorherzusagen. Das Zeitreihenäquivalent von LOO CV besteht darin, stattdessen einen rollierenden Prognoseursprung zu verwenden. Ich habe darüber in diesem Blog-Beitrag geschrieben . Ich bin mir nicht sicher, ob der k-fache Lebenslauf ein direktes Zeitreihenäquivalent hat.

Rob Hyndman
quelle
3

In Sci-Kit Learn Python Kit gibt es etwas namens "TimeSeriesSplit", das im Grunde wie die Trainings- / Testbeispiele aussieht, die Sie von einer Walk Forward-Optimierung erhalten würden. Rob hatte Recht, Sie können zukünftige Datenpunkte nicht zum Trainieren für vergangene Testsätze verwenden. Der beste Weg zur Kreuzvalidierung besteht darin, Ihre Trainingssätze in so viele "Falten" wie möglich aufzuteilen, während Sie den Testsatz "Walking Forward" beibehalten. . Die Folge ist, dass jedes aufeinanderfolgende Training eine Obermenge der vorherigen Trainingseinheiten festlegt und jeder Test immer aktuellere Daten enthält, um dem "Vorwärtsgehen" immer einen Schritt voraus zu sein.

Michael Schauben
quelle