Explorative Analyse von räumlich-zeitlichen Prognosefehlern

13

Die Daten: Ich habe kürzlich an der Analyse der stochastischen Eigenschaften eines räumlich-zeitlichen Feldes von Prognosefehlern für die Windkraftproduktion gearbeitet. Formal kann man sagen, dass es sich um einen Prozess handelt zweimal in der Zeit (mittundh) und einmal im Raum (p)indiziert,wobeiHdie Anzahl der Vorausschauzeiten ist (entspricht etwa24, regelmäßig abgetastet),Tdie Anzahl von "Vorhersagezeiten" (dh Zeiten, zu denen die Vorhersage ausgegeben wird, in meinem Fall ungefähr 30000, regelmäßig abgetastet) undneine Anzahl von räumlichen Positionen (in meinem Fall ungefähr 300, nicht gerastert). Da dies ein wetterbezogener Prozess ist, habe ich auch viele Wettervorhersagen, Analysen und meteorologische Messungen, die verwendet werden können.

(ϵt+h|tp)t=1,T;h=1,,H,p=p1,,pn
thpH24Tn

Frage: Können Sie mir die explorative Analyse beschreiben, die Sie für diese Art von Daten durchführen würden, um die Art der Interdependenzstruktur (die möglicherweise nicht linear ist) des Prozesses zu verstehen, um eine genaue Modellierung des Prozesses vorzuschlagen?

Robin Girard
quelle
Das ist eine sehr interessante Frage. Kann man zumindest mit einer Untergruppe anonymisierter Daten spielen? Und wie wurden die Prognosen erstellt, welches Modell wurde verwendet?
mpiktas
1
@mpiktas danke, Sie können sich sicher sein, dass es mit einer geeigneten AR-Modellierung erstellt wurde (eine für jeden Windpark), es wird das Problem nicht sehr ändern. Entschuldigung, es gibt zu viele Vertraulichkeitsprobleme mit diesen Daten, ich kann Ihnen nichts
anbieten

Antworten:

6

Es scheint mir, dass Sie über genügend Daten verfügen, um die Abhängigkeit von Raum-Zeit- und meteorologischen Einflüssen sowohl von Prognosefehlern (dh Tendenz zur systematischen Über- / Unterschätzung [erster Moment]) als auch von deren Varianz [zweiter Moment] zu modellieren.

Um die Tendenz zu untersuchen, würde ich einfach viele Streudiagramme, Heatmaps oder Hexbin-Diagramme erstellen. Um die Variabilität zu untersuchen, würde ich einfach die ursprünglichen Fehler quadrieren und dann wieder viele Streudiagramme, Heatmaps oder Hexbin-Diagramme erstellen. Dies ist natürlich nicht ganz unproblematisch, wenn Sie viele Vorurteile haben, aber es kann trotzdem hilfreich sein, Muster einer von Kovariaten beeinflussten Heteroskedastizität zu erkennen.

Meine Kollegen haben einen netten technischen Bericht erstellt, in dem eine sehr flexible Methode zum Anpassen dieser Art von Modellen beschrieben ist (bei Bedarf können auch höhere Momente modelliert werden), die auch ein gut Rimplementiertes GamboostLSS enthält, basierend auf mboost: Mayr, Andreas; Fenske, Nora; Hofner, Benjamin; Kneib, Thomas und Schmid, Matthias (2010): GAMLSS für hochdimensionale Daten - ein flexibler Ansatz, der auf Boosten basiert. . Angenommen, Sie haben Zugriff auf Computer mit viel RAM (Ihre Datenmenge scheint GROSS zu sein), können Sie alle Arten von semiparametrischen Effekten abschätzen (z. B. Schätzer für glatte Oberflächen für räumliche Effekte oder den gemeinsamen Effekt von und h)th, Tensorprodukt-Splines für temporäumliche Effekte oder reibungslose Wechselwirkungen meteorologischer Effekte usw ..) für die verschiedenen Momente und führen gleichzeitig eine Begriffswahl durch, um ein sparsames und interpretierbares Modell zu erhalten. Die Hoffnung wäre, dass die Begriffe in diesem Modell ausreichen, um die räumlich-zeitliche Autokorrelationsstruktur der Prognosefehler zu berücksichtigen. Sie sollten jedoch die Residuen dieser Modelle auf Autokorrelation prüfen (z. B. einige Variogramme und ACFs betrachten).

Fabians
quelle
+1 Danke Fabians, du hast vollkommen recht, das Problem ist nicht, dass ich nicht genug Daten habe. Beachten Sie, dass meine Frage insbesondere die Interdependenzstruktur betrifft. Streudiagramme, Heatmaps und Hexbin-Diagramme sind gute Werkzeuge, wenn sie für einen guten Zweck verwendet werden. Ich denke, das allgemeine additive Modell kann auch sehr leistungsfähig sein. Es gibt ein wunderbares Papier von Brillinger, das gute Hinweise zur Verwendung von GAM gibt.
Robin Girard
5

Wir (ein Kollege und ich) haben endlich einen Artikel darüber geschrieben. Um die Dinge zusammenzufassen, haben wir zwei Lösungen vorgeschlagen, um die (räumlich-zeitliche) Ausbreitung von Fehlern entlang Dänemarks und der Vorausschauzeiten zu quantifizieren und statistisch zusammenzufassen.

  • Im ersten Fall berechnen wir die Korrelation zwischen allen Windparkpaaren und für alle Vorausschauzeitenpaare (dies ist eine Funktion von 4 Variablen). Wenn ein Paar fixiert ist, haben wir gezeigt, dass die Korrelationsfunktion ein lokales Maximum hat, wenn wir vorausschauen. Wir sagten, dies ist Ausbreitung! Der zeitliche Maßstab für ein gegebenes Paar von Windparks ergibt sich aus der zeitlichen Verzögerung, für die dieses lokale Maximum erhalten wird. Das Auftragen der lokalen Korrelationsmaxima, der zeitlichen Verzögerung, die es ermöglicht, diese zu erhalten, und des räumlichen Vektors, der die Windparks verbindet, für alle Windparkpaare ergibt die rechte Seite von Abbildung 1.

Abbildung 1

Dies kann verwendet werden, um einen globalen Ausbreitungsvektor zu berechnen, dh eine Art räumlicher Durchschnitt der Ausbreitungsgeschwindigkeiten zwischen Paaren. Ein Teil davon ist auf der linken Seite von Abbildung 1 dargestellt. Erraten Sie, welche Fehlerausbreitung West-Ost in Denamrk ist (ok, das war keine große Überraschung :)). Wir haben dies auch bedingt auf verschiedene meteorologische Situationen analysiert, um den Zusammenhang zwischen Ausbreitung und Wind (Geschwindigkeit, Richtung) aufzuzeigen.

  • ttR2

Figur 2

Im zweiten Fall beobachteten wir, dass die Ausbreitungsgeschwindigkeit des zeitlichen Mittelwerts einen ähnlichen Wert aufweist wie der des räumlichen Mittelwerts im ersten Fall. Wenn Sie sich diese Arbeit genauer ansehen möchten, finden Sie hier das Papier .

Robin Girard
quelle
+1 Danke fürs Teilen. (Tut mir leid, dass ich die Frage verpasst habe, als sie ursprünglich erschien.) Haben Sie erwogen, Cross-Variogramme nach Look-Ahead-Zeit zu zeichnen? Die effektivsten wären nicht die traditionellen geglätteten gerichteten Variogrammwolken; Verwenden Sie stattdessen zweidimensionale Darstellungen der Variogramm-Wolkendichten. Sie können dann Kreuzvariogramme dieser erstellen , um die zeitlichen Beziehungen zu untersuchen. Ihre Weitergabeergebnisse sollten aus einer solchen Analyse automatisch herausspringen.
whuber
@whuber Danke für den Kommentar, ich glaube kaum, dass du mehr als 2 oder 3 Fragen auf dieser Seite verpasst hast :). Ihre Idee mit dem Variogramm scheint verbunden zu sein (ich bin nicht sehr gewohnt, Variogramm zu verwenden, ich glaube oft, dass alles, was mit Variogramm formuliert werden kann, ein praktisches Äquivalent mit Kovarianzen hat ...), ich werde darüber nachdenken.
Robin Girard
Sie haben Recht, dass die Kovarianzen in vielen Anwendungen Variogrammen entsprechen. Die Variogrammwolke bietet jedoch sowohl eine visuelle als auch eine konzeptionelle Ergänzung, die das reine Arbeiten mit Kovarianzfunktionen nicht zu bieten scheint - es ist ein bisschen wie das Betrachten von Streudiagrammen statt nur von Korrelationsmatrizen: Manchmal sieht man Muster, die die Zahlen nicht klar erkennen lassen .
Whuber