Zufällige Waldregression zur Vorhersage von Zeitreihen

Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen.

Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die Leistungsvariablen.

Ich habe 12 Monate Daten, habe sie also in 11 Monate für das Trainingsset und den letzten Monat für das Testen unterteilt.

Bisher habe ich 10 neue Funktionen erstellt, deren Werte für jede der Leistungsvariablen um 1 bis 10 Minuten verzögert sind, und diese sowie die Eingaben verwendet, um Vorhersagen zu treffen. Die Leistung des Testsatzes war ziemlich gut (das System ist ziemlich vorhersehbar), aber ich mache mir Sorgen, dass mir etwas in meinem Ansatz fehlt.

In diesem Artikel geben die Autoren beispielsweise ihren Ansatz zum Testen der Vorhersagefähigkeit ihres zufälligen Waldmodells an:

Die Simulation wird fortgesetzt, indem iterativ eine neue Datenwoche hinzugefügt, ein neues Modell basierend auf den aktualisierten Daten trainiert und die Anzahl der Ausbrüche für die folgende Woche vorhergesagt wird

Wie unterscheidet sich dies von der Verwendung "späterer" Daten in der Zeitreihe als Test? Sollte ich mein RF-Regressionsmodell mit diesem Ansatz sowie mit dem Testdatensatz validieren? Ist diese Art von "autoregressivem" Ansatz zur zufälligen Waldregression für Zeitreihen gültig, und muss ich überhaupt so viele verzögerte Variablen erstellen, wenn ich an einer Vorhersage für 10 Minuten in der Zukunft interessiert bin?

time-series forecasting cross-validation random-forest autoregressive KRS-Spaß
quelle

RFs sind nicht für zeitliche Überlegungen ausgelegt und integrieren diese nicht explizit. Warum sollten Sie sie dann überhaupt für diese Analyse verwenden? Es gibt viele Zeitreihenmethoden. Wähle eins.

Mike Hunter

@DJohnson Ich dachte, ich würde versuchen, den Ansatz in der Zeitung nachzuahmen: Versuchen Sie RF und vergleichen Sie ihn mit ARIMA. Schlagen Sie vor, dass dies die Zeit nicht wert ist und nur ARIMA zu verwenden?

KRS-Spaß

@DJohnson, die Mechanik autoregressiver Modelle ähnelt stark der von Querschnittsregressionsmodellen. Verwenden Sie nach der Erstellung der verzögerten Features RFs wie in einer Querschnittseinstellung. Ich denke, es ist fair, sie auszuprobieren. Sie haben jedoch Recht, dass andere Methoden in Zeitreihen beliebter sind, und das OP könnte auch davon profitieren, sie zu untersuchen.

Richard Hardy

Meiner Ansicht nach sind RFs wie der Hammer, bei dem alles zum Nagel wird. Bei Daten, wie sie vom OP beschrieben wurden, wäre meine erste Wahl ein Paneldaten- oder Poolmodell, nicht ARIMA.

Mike Hunter

Ich bin gerade darauf gestoßen und habe die Zeitung gelesen, auf die vor ein paar Tagen Bezug genommen wurde. Ich vergleiche zufällige Gesamtstruktur und ein LSTM für multivariate Zeitreihenprognosen. Interessanterweise ist das LSTM besser, wenn weniger Zeit in die Trainingsdaten einbezogen wird, aber wenn ich mehr Jahre Daten hinzufüge, konvergieren die Ergebnisse beider Methoden zu den tatsächlichen Ergebnissen. Ich denke, das liegt hauptsächlich daran, dass die Funktionen genügend Informationen liefern, um die zeitliche Komponente zu überwinden. Sowieso fand es interessant. Außerdem habe ich noch nie gesehen, dass ARIMA gut funktioniert, außer in sehr offensichtlichen saisonalen Fällen, und multivariates ARIMA ist ...

Hobbes

Antworten:

Wie unterscheidet sich dies von der Verwendung "späterer" Daten in der Zeitreihe als Test?

Der von Ihnen angegebene Ansatz wird als "rollierender Ursprung" -Prognose bezeichnet: Der Ursprung, aus dem wir prognostizieren, wird "vorwärts gerollt", und die Trainingsdaten werden mit den neu verfügbaren Informationen aktualisiert. Der einfachere Ansatz ist die "Vorhersage eines einzelnen Ursprungs", bei der wir einen einzelnen Ursprung auswählen.

Der Vorteil der rollierenden Ursprungsprognose besteht darin, dass sie ein Prognosesystem über die Zeit simuliert . Bei der Vorhersage einzelner Ursprünge können wir zufällig einen Ursprung auswählen, bei dem unser System sehr gut (oder sehr schlecht) funktioniert, was uns möglicherweise eine falsche Vorstellung von der Leistung unseres Systems gibt.

Ein Nachteil der rollierenden Ursprungsprognose ist der höhere Datenbedarf. Wenn wir 10 Schritte mit mindestens 50 historischen Beobachtungen vorhersagen möchten, können wir diesen Einzelursprung mit insgesamt 60 Datenpunkten durchführen. Wenn wir jedoch 10 überlappende rollierende Ursprünge ausführen möchten, benötigen wir 70 Datenpunkte.

Der andere Nachteil ist natürlich die höhere Komplexität.

Selbstverständlich sollten Sie auch bei der Vorhersage des rollierenden Ursprungs keine "späteren" Daten verwenden, sondern nur Daten vor dem Ursprung, den Sie in jeder Iteration verwenden.

Sollte ich mein RF-Regressionsmodell mit diesem Ansatz sowie mit dem Testdatensatz validieren?

Wenn Sie über genügend Daten verfügen, wird eine fortlaufende Ursprungsbewertung immer mehr Vertrauen in mich wecken als eine einzelne Ursprungsbewertung, da sie hoffentlich die Auswirkungen des Ursprungs herausrechnet.

Ist diese Art von "autoregressivem" Ansatz zur zufälligen Waldregression für Zeitreihen gültig, und muss ich überhaupt so viele verzögerte Variablen erstellen, wenn ich an einer Vorhersage für 10 Minuten in der Zukunft interessiert bin?

Ja, Rolling vs. Single Origin Forecasting gilt für jede Vorhersageübung. Es hängt nicht davon ab, ob Sie zufällige Gesamtstrukturen oder ARIMA oder etwas anderes verwenden.

Ob Sie Ihre verzögerten Variablen benötigen, können wir Ihnen nicht empfehlen. Es ist möglicherweise am besten, mit einem Fachexperten zu sprechen, der auch andere Beiträge vorschlägt. Probieren Sie einfach Ihre RF mit den verzögerten Eingängen gegen ohne. Und vergleichen Sie auch mit Standard-Benchmarks wie ARIMA oder ETS oder noch einfacheren Methoden, die überraschend schwer zu übertreffen sein können .

Stephan Kolassa
quelle