Ich bin neu auf der Seite und ziemlich neu in der Statistik und R. Ich arbeite an einem Projekt für das College mit dem Ziel, die Korrelation zwischen Regen und Wasserfluss in Flüssen zu finden. Sobald die Korrelation bewiesen ist, möchte ich sie vorhersagen.
Die Daten Ich habe einen Datensatz von mehreren Jahren (alle 5 Minuten) für einen bestimmten Fluss, der Folgendes enthält:
- Niederschlag in Millimetern
- Flussfluss in Kubikmetern pro Sekunde
Dieser Fluss hat keinen Schnee, daher basiert das Modell nur auf Regen und Zeit. Es gibt gelegentlich eisige Temperaturen, aber ich denke darüber nach, diese Zeiträume als Ausreißer aus den Daten zu entfernen, da diese Situation für mein Projekt nicht in Frage kommt.
Beispiele Hier finden Sie einige Diagramme mit Beispieldaten, die einige Stunden später von einem Regen und dem Aufstieg von Wasser stammen.
Die rote Linie ist der Flussfluss. Die Orange ist der Regen. Sie können sehen, dass es immer regnet, bevor Wasser im Fluss aufsteigt. Am Ende der Zeitreihe beginnt es wieder zu regnen, aber es wird später den Flussfluss beeinträchtigen.
Die Korrelation ist da. Folgendes habe ich in R getan, um die Korrelation mithilfe von ccf in R zu beweisen:
- die Kreuzkorrelation
- die führende Variable
- Die Verzögerung
Dies ist meine R-Linie für das zweite Beispiel (eine Niederschlagsperiode):
ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")
Meine Interpretation ist:
- dass der Regen führt (passiert zuerst),
ccf
Habe ich recht?
Über die Zeitreihe . Diese Zeitreihe hat keine Periodizität oder Saisonalität. Regen kann jederzeit kommen und eine Wirkung verursachen. Es nimmt im Sommer zwar ab, aber es kommt immer noch vor, dass es das ganze Jahr über viel regnet.
Modell und Prognose.
Ich weiß nicht, wie ich ein Modell erstellen soll, um eine Prognose zu erstellen, aus der hervorgeht, um wie viel ein Fluss das Volumen nach einer Regenperiode erhöhen wird. Ich habe es versucht arima
, war auto arima
aber nicht sehr erfolgreich. Soll ich Arima
, vars
oder verschiedenes anderes multivariaten Modell? Jeder Link zu einem Beispiel wäre eine große Hilfe.
Bitte lassen Sie mich wissen, wenn Sie wissen, wie diese Vorhersage am besten erstellt werden kann, welches Modell ich verwenden soll. Es gibt noch ein paar andere Dinge, die ich in Erwägung ziehe, aber der Einfachheit halber aus dieser Erklärung herausgenommen. Ich kann bei Bedarf einige Daten freigeben.
quelle
Antworten:
Sie müssen Ihr ACF- und PACF-Verhalten verwenden, um herauszufinden, welches Modell besser zu Ihren Daten passt (z. B. weist ein langsamer Zerfall im ACF-Plot darauf hin, dass möglicherweise Unterschiede erforderlich sind, um die Serie stabiler zu machen. Ihr ACF-Plot zeigt offensichtlich eine bestimmte Art.) Wenn Sie die richtige Transformation verwenden (stationäre Serie), müssen Sie überlegen, welches Modell AR, MA, ARMA oder ARIMA für Sie geeignet ist. In meinem Projekt habe ich Folgendes getan, um bei der Modellauswahl zu helfen:
Der ACF-Plot zeigt einen relativ großen Wert bei Verzögerung 2 ( siehe wo sich dieser in Ihrem Plot befindet ). Abgesehen davon wird es bei Verzögerungen größer als zwei im Wesentlichen null. Dies deutet darauf hin, dass ein MA (2) -Modell in die Daten passen könnte. Wenn wir uns dann das PACF-Diagramm ansehen, stellen wir sofort fest, dass die Korrelation bei fast allen Verzögerungen Null ist. Dies könnte darauf hindeuten, dass auf dem Modell kein AR-Teil vorhanden ist ( passen Sie dies an Ihre Darstellung an) ). Daher könnte eines unserer Kandidatenmodelle ein ARIMA (p, d, q) mit den Parametern p = 0, d = 1 und q = 1 oder 2 sein. Ich habe auch einige höhere Ordnungen von MA ausprobiert und eine Möglichkeit in Betracht gezogen, einen AR-Anteil am Modell zu haben, um die Ergebnisse von AIC, AICc und BIC zu vergleichen und über das endgültige Modell zu entscheiden. Im nächsten Schritt müssen Sie einige Diagnosetests durchführen, um sicherzustellen, dass Sie das richtige Modell ausgewählt haben und dass Ihre Residuen kein Muster enthalten (ACF & PACF für Residuen, p-Wert für Ljung-Box-Statistik, Histyogramm für Residuen und QQ-Plot). Ich hoffe es hilft!
quelle