Aufteilen von Zeitreihendaten in Zug- / Test- / Validierungssätze

11

Was ist der beste Weg, um Zeitreihendaten in Zug- / Test- / Validierungssätze aufzuteilen, wobei der Validierungssatz für die Optimierung von Hyperparametern verwendet wird?

Wir haben tägliche Verkaufsdaten im Wert von 3 Jahren. Unser Plan ist es, 2015-2016 als Trainingsdaten zu verwenden, dann 10 Wochen aus den 2017-Daten, die als Validierungssatz verwendet werden sollen, und weitere 10 Wochen ab 2017-Daten für zufällig auszuwählen das Testset. Wir werden dann an jedem der Tage im Test- und Validierungssatz einen Spaziergang vorwärts machen.

Meraxe
quelle

Antworten:

7

Sie sollten eine zeitbasierte Aufteilung verwenden, um die Vorausschau zu vermeiden. Zug / Validierung / Test in dieser Reihenfolge nach Zeit.

Der Testsatz sollte der neueste Teil der Daten sein. Sie müssen eine Situation in einer Produktionsumgebung simulieren, in der Sie nach dem Training eines Modells Daten auswerten, die nach dem Zeitpunkt der Erstellung des Modells eingehen. Die Zufallsstichprobe, die Sie für die Validierung und Schulung verwenden, ist daher keine gute Idee.

Wind
quelle
4

Ich denke, der vollständigste Weg, Ihre Zeitreihendaten für Training / Validierung / Test / Vorhersage zu nutzen, ist folgender:

Geben Sie hier die Bildbeschreibung ein

Ist das Bild selbsterklärend? Wenn nicht, bitte kommentieren und ich werde mehr Text hinzufügen ...

elemolotiv
quelle
3

Anstatt nur einen Satz von Trainings- / Validierungssätzen zu erstellen, können Sie mehrere solcher Sätze erstellen.

Der erste Trainingssatz könnte beispielsweise 6-Monats-Daten (erstes Semester 2015) sein, und der Validierungssatz würde dann die nächsten drei Monate (Juli-August 2015) sein. Der zweite Trainingssatz wäre eine Kombination aus dem ersten Trainings- und Validierungssatz. Der Validierungssatz ist dann die nächsten drei Monate (September-Oktober 2015). Und so weiter.

Dies ist eine Variation der K-Fold-Kreuzvalidierung, bei der die Trainingssätze eine Kombination aus dem vorherigen Trainings- und Validierungssatz sind.

Aathiraks
quelle