Wie modellieren Sie Zeitreihentemperaturdaten an mehreren Standorten als Funktion von Daten an einem Standort?

8

Ich bin neu in der Zeitreihenanalyse und würde mich über Vorschläge freuen, wie das folgende Zeitreihen-Regressionsproblem am besten angegangen werden kann: Ich habe über drei Jahre stündliche Temperaturmessungen an ungefähr 20 Standorten an einem Standort sowie statische Zusatzinformationen (Steigung, Höhe, Aspekt, Überdachung). Der Standort ist mehrere Hektar groß, und die Temperaturerfassungsgeräte sind in Abständen von ~ 20 bis 50 m über mehrere Abschnitte verteilt. Etwa 1 km entfernt habe ich stündliche Daten von einer Wetterstation, die auch Messungen der Windgeschwindigkeit, Windrichtung, Luftfeuchtigkeit, Sonneneinstrahlung usw. liefert.

Ich möchte in der Lage sein, die Temperatur (min, max, mean) am Standort (im Allgemeinen) nur anhand der Daten von der Wetterstation vorherzusagen. Es ist semi-permanent in Betrieb, während die Temperaturschreiber am Standort nur 3 Jahre in Betrieb waren. Im Wesentlichen habe ich mehrere unabhängige Variablen (Temperatur, Luftfeuchtigkeit, Wind usw.) an einem Ort (der Wetterstation), aber eine einzige abhängige Variable (Temperatur) an mehreren Orten, von denen jeder auch mehrere zeitinvariante Attribute hat: Steigung, Höhe, Aspekt usw.

Ich bin am meisten daran interessiert, die täglichen Tiefs und Hochs am Standort im Allgemeinen vorherzusagen, anstatt die stündlichen Temperaturen an jedem Ort der Temperaturerfassung am Standort. Obwohl diese stündlichen Vorhersagen sicherlich von Wert wären.

Mein ursprünglicher Ansatz bestand darin, aus den Temperaturen am Standort tägliche Durchschnitts-, Mindest- und Höchstwerte zu berechnen und diese als abhängige Variablen in einfachen linearen Regressionen zu verwenden, wobei die an der Wetterstation verfügbaren Messungen als unabhängige Variablen verwendet wurden. Dies funktioniert recht gut (R2> 0,50 mit 2 Prädiktoren), scheint jedoch aus vielen Gründen zu simpel zu sein, und ich stelle mir vor, dass es dafür ausgefeiltere (und leistungsfähigere) Möglichkeiten geben muss.

Zum einen mache ich nichts explizites über die Zeitreihenbeschaffenheit der Tageswerte in der Regression, und obwohl die minimale oder durchschnittliche Temperatur von einem Tag zum nächsten möglicherweise nicht so korreliert ist wie von einer Stunde zur nächsten Als nächstes wundere ich mich über Probleme mit der Unabhängigkeit dieser täglichen Daten (oder sicherlich stündlich, wenn ich versuchen würde, stündliche Temperaturen vorherzusagen). Zweitens verwende ich aufgrund von Bedenken, mehrere, etwas korrelierte Temperaturmessungen über den Standort hinweg durchzuführen (sie sind untereinander viel ähnlicher als die Wetterstationsdaten), einfach den Mittelwert oder das Minimum oder das Maximum aller Messungen über den Standort im Vergleich zum direkten Einbeziehen der Daten von jedem einzelnen Messort. Dies hindert mich aber auch daran, die zeitinvarianten Zusatzinformationen von jedem Temperaturmessort (Steigung, Höhe, Aspekt, Überdachung), was vermutlich einen Großteil der Temperaturunterschiede zwischen den Standorten am Standort erklären wird. Drittens betrachte ich aufgrund der Bedenken, dass die Regression durch den sehr starken Tageszyklus der Temperaturen dominiert wird, nur Tageswerte anstelle von Stundenwerten.

Vorschläge für bessere Vorgehensweisen (insbesondere in R) oder wo Sie anfangen sollten zu suchen, sind sehr willkommen! Mir ist klar, dass es viele R-Pakete gibt, die sich mit Zeitreihen befassen, aber ich habe Probleme, den besten Ausgangspunkt für diese Art von Problem zu finden, da keines der Beispiele, die ich gesehen habe, wirklich die Situation widerspiegelt, in der ich mich befinde versuche hier zu modellieren.

Update: Wenn ich etwas mehr darüber nachdenke, ist mir nicht klar, ob Zeitreihenmodelle hier wirklich geeignet sind, da ich nicht daran interessiert bin, vorherzusagen, was zu einem bestimmten zukünftigen Zeitpunkt passieren wird. Vielmehr interessiert mich einfach, wie die Temperaturen am Standort mit den Temperaturen (und anderen Umgebungsvariablen) an der Wetterstation zusammenhängen. Ich dachte, dass eine Zeitreihenanalyse vielleicht von Wert wäre, weil ich befürchtete, dass nachfolgende Temperaturmessungen möglicherweise nicht ausreichend unabhängig sind. Die Temperatur einer Stunde hängt zwar stark von der vorherigen Stunde ab, aber die Abhängigkeit für tägliche Daten ist schwächer. Ist in beiden Fällen die Zeitkorrelation / Nichtunabhängigkeit von Zeitreihendaten ein berechtigtes Anliegen, das angegangen werden sollte, wenn man nicht an einer Zeitreihenvorhersage interessiert ist?


quelle
Ich hätte etwas entlang der Punktprozesse vorgeschlagen . Aber ich weiß nicht genau, wie ich es machen soll, Sie können sich diese These für einige Ideen
ansehen

Antworten:

1

Möglicherweise möchten Sie das GAM-Paket in R untersuchen, da es angepasst werden kann, um einige (oder alle) der gewünschten Aufgaben auszuführen. Das Originalpapier ( Hastie & Tibshirani, 1986 ) ist über OpenAccess erhältlich, wenn Sie es lesen möchten.

Im Wesentlichen modellieren Sie eine einzelne abhängige Variable als eine additive Kombination von "glatten" Prädiktoren. Eine der typischen Anwendungen besteht darin, Zeitreihen und Verzögerungen als Prädiktoren zu verwenden, diese Eingaben zu glätten und dann GAM anzuwenden.

Diese Methode wurde ausgiebig verwendet, um die tägliche Mortalität als Funktion geglätteter Umweltzeitreihen, insbesondere von Schadstoffen, abzuschätzen. Es ist nicht OpenAccess, aber ( Dominici et al., 2000 ) ist eine hervorragende Referenz, und ( Statistische Methoden für die Umweltepidemiologie mit R ) ist ein ausgezeichnetes Buch darüber, wie R für diese Art der Analyse verwendet werden kann.

Wesley Burr
quelle
0

Ob Sie eine Prognose abgeben möchten oder nicht, hat nichts mit einer korrekten Zeitreihenanalyse zu tun. Zeitreihenmethoden können ein robustes Modell entwickeln, das einfach verwendet werden kann, um die Beziehung zwischen einer abhängigen Reihe und einer Reihe von vom Benutzer vorgeschlagenen Eingaben (auch als benutzerdefinierte Prädiktorserien bezeichnet) und empirisch identifizierten ausgelassenen Variablen zu charakterisieren, seien sie deterministisch oder stochastisch Ihre Option kann dann das "Signal" in die Zukunft erweitern, dh eine Prognose mit Unsicherheiten basierend auf der Unsicherheit der Koeffizienten und der Unsicherheit der zukünftigen Werte des Prädiktors. Nun können diese beiden Arten empirisch identifizierter "ausgelassener Reihen" als 1) deterministisch und 2) stochastisch klassifiziert werden. Der erste Typ sind einfach Impulse, Level Shifts, Saisonale Impulse und lokale Zeittrends, während der zweite Typ durch den ARIMA-Teil Ihres endgültigen Modells dargestellt wird. Wenn eine oder mehrere stochastische Reihen aus der Liste der möglichen Prädiktoren weggelassen werden, wird die Auslassung durch die ARIMA-Komponente in Ihrem endgültigen Modell gekennzeichnet. Zeitreihenmodellierer bezeichnen ARIMA-Modelle als "Regressionsmodell des armen Mannes", da die Vergangenheit der Serie als Proxy für ausgelassene stochastische Eingabeserien verwendet wird.

IrishStat
quelle