Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen.
Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die Leistungsvariablen.
Ich habe 12 Monate Daten, habe sie also in 11 Monate für das Trainingsset und den letzten Monat für das Testen unterteilt.
Bisher habe ich 10 neue Funktionen erstellt, deren Werte für jede der Leistungsvariablen um 1 bis 10 Minuten verzögert sind, und diese sowie die Eingaben verwendet, um Vorhersagen zu treffen. Die Leistung des Testsatzes war ziemlich gut (das System ist ziemlich vorhersehbar), aber ich mache mir Sorgen, dass mir etwas in meinem Ansatz fehlt.
In diesem Artikel geben die Autoren beispielsweise ihren Ansatz zum Testen der Vorhersagefähigkeit ihres zufälligen Waldmodells an:
Die Simulation wird fortgesetzt, indem iterativ eine neue Datenwoche hinzugefügt, ein neues Modell basierend auf den aktualisierten Daten trainiert und die Anzahl der Ausbrüche für die folgende Woche vorhergesagt wird
Wie unterscheidet sich dies von der Verwendung "späterer" Daten in der Zeitreihe als Test? Sollte ich mein RF-Regressionsmodell mit diesem Ansatz sowie mit dem Testdatensatz validieren? Ist diese Art von "autoregressivem" Ansatz zur zufälligen Waldregression für Zeitreihen gültig, und muss ich überhaupt so viele verzögerte Variablen erstellen, wenn ich an einer Vorhersage für 10 Minuten in der Zukunft interessiert bin?
Antworten:
Der von Ihnen angegebene Ansatz wird als "rollierender Ursprung" -Prognose bezeichnet: Der Ursprung, aus dem wir prognostizieren, wird "vorwärts gerollt", und die Trainingsdaten werden mit den neu verfügbaren Informationen aktualisiert. Der einfachere Ansatz ist die "Vorhersage eines einzelnen Ursprungs", bei der wir einen einzelnen Ursprung auswählen.
Der Vorteil der rollierenden Ursprungsprognose besteht darin, dass sie ein Prognosesystem über die Zeit simuliert . Bei der Vorhersage einzelner Ursprünge können wir zufällig einen Ursprung auswählen, bei dem unser System sehr gut (oder sehr schlecht) funktioniert, was uns möglicherweise eine falsche Vorstellung von der Leistung unseres Systems gibt.
Ein Nachteil der rollierenden Ursprungsprognose ist der höhere Datenbedarf. Wenn wir 10 Schritte mit mindestens 50 historischen Beobachtungen vorhersagen möchten, können wir diesen Einzelursprung mit insgesamt 60 Datenpunkten durchführen. Wenn wir jedoch 10 überlappende rollierende Ursprünge ausführen möchten, benötigen wir 70 Datenpunkte.
Der andere Nachteil ist natürlich die höhere Komplexität.
Selbstverständlich sollten Sie auch bei der Vorhersage des rollierenden Ursprungs keine "späteren" Daten verwenden, sondern nur Daten vor dem Ursprung, den Sie in jeder Iteration verwenden.
Wenn Sie über genügend Daten verfügen, wird eine fortlaufende Ursprungsbewertung immer mehr Vertrauen in mich wecken als eine einzelne Ursprungsbewertung, da sie hoffentlich die Auswirkungen des Ursprungs herausrechnet.
Ja, Rolling vs. Single Origin Forecasting gilt für jede Vorhersageübung. Es hängt nicht davon ab, ob Sie zufällige Gesamtstrukturen oder ARIMA oder etwas anderes verwenden.
Ob Sie Ihre verzögerten Variablen benötigen, können wir Ihnen nicht empfehlen. Es ist möglicherweise am besten, mit einem Fachexperten zu sprechen, der auch andere Beiträge vorschlägt. Probieren Sie einfach Ihre RF mit den verzögerten Eingängen gegen ohne. Und vergleichen Sie auch mit Standard-Benchmarks wie ARIMA oder ETS oder noch einfacheren Methoden, die überraschend schwer zu übertreffen sein können .
quelle