Auf welche Probleme sollte ich beim Kombinieren mehrerer Zeitreihen achten?

10

Angenommen, ich habe eine Reihe von Zeitreihen, z. B. eine Reihe von Temperaturaufzeichnungen von verschiedenen Stationen in einer Region. Ich möchte einen einzigen Temperaturrekord für die gesamte Region erhalten, mit dem ich Aspekte des regionalen Klimas beschreiben kann. Der intuitive Ansatz könnte darin bestehen, einfach den Durchschnitt aller Stationen zu jedem Zeitschritt zu ermitteln, aber mein statistischer Spinnensinn (mit dem ich definitiv noch nicht gut in Kontakt bin) sagt mir, dass dies möglicherweise nicht so einfach ist. Insbesondere stelle ich mir vor, dass durch Mittelung über die gesamte Region einige der interessanten Temperaturextreme beseitigt werden und ich möglicherweise Probleme mit der Abhängigkeit zwischen geschlossenen Stationen habe.

Welche anderen Probleme könnte ich haben, wenn ich eine solche Strategie ausprobieren würde, und gibt es Möglichkeiten, sie zu überwinden, oder sinnvollere Methoden, um diese Art von Daten zu kombinieren?

Hinweis: Die Antworten können allgemeiner sein als das von mir bereitgestellte räumliche Beispiel.

naught101
quelle
1
Das Problem könnte in Ihrem Konflikt zwischen "einem einzelnen Temperaturrekord für die gesamte Region" und Ihrem Interesse an Variationen innerhalb der Region liegen. Eine Lösung könnte eine Möglichkeit beinhalten, diese beiden Probleme in Einklang zu bringen, z. B. die Aufteilung der Varianz in Komponenten innerhalb und zwischen Regionen.
Peter Ellis
@ PeterEllis, ja, daran habe ich vage gedacht. Nehmen wir für die Zwecke der Frage an, dass mir die intraregionale räumliche Variabilität egal ist.
Naught101
In diesem Fall denke ich, dass die Hauptsache, über die Sie sich Sorgen machen müssen, die Abhängigkeit zwischen nahen Stationen ist. Finden Sie einen Weg, um Beobachtungen zu beschweren, die die Station nebenan effektiv duplizieren, und Sie sollten in Ordnung sein.
Peter Ellis
@PeterEllis: ok, aber es gibt möglicherweise keinen vernünftigen physischen Weg, dies zu tun - die Nähe von Stationen bedeutet nicht unbedingt, dass sie abhängiger sind - dh. Zwei nahe Stationen auf den gegenüberliegenden Seiten eines Gebirges sind möglicherweise weniger ähnlich als zwei entfernte Stationen auf einer weiten Ebene. Gibt es eine zuverlässige Möglichkeit, die Abhängigkeit statistisch zu definieren? Kovarianz, nehme ich an ... Es gibt wahrscheinlich immer noch weniger Spitzen in der resultierenden Reihe (ich denke, das spiegelt jedoch die physikalische Situation wider - Temperaturänderungen über einen weiten Bereich sind wahrscheinlich langsamer und stabiler als an einem einzelnen Ort).
naught101
@naught, in Bezug auf den räumlichen Aspekt Ihrer Frage, wie sind Ihre Regionen definiert? In Ihrem Kommentar erwähnen Sie, dass sich zwei nahe Stationen auf gegenüberliegenden Seiten eines Berges von zwei entfernten Stationen auf einer weiten Ebene unterscheiden können. Haben Sie in Betracht gezogen, die Stationsregionen basierend auf Nähe und Ähnlichkeit für Ihre Analyse neu zu definieren? Sie müssten nicht unbedingt den herkömmlichen regionalen Grenzen entsprechen. Stattdessen könnten sie zu einer analytischen Überlagerung werden, die über eine herkömmliche Karte gezeichnet werden könnte.
Dav

Antworten:

1

Zuerst möchte ich sagen, dass ich einen Kommentar hinzufügen würde, aber das kann ich noch nicht (rep), aber ich mag die Frage und wollte teilnehmen, also hier eine "Antwort". Ich sehe auch, dass dies alt ist, aber es ist interessant.

Wäre es zunächst möglich, eine Dimensionsreduktionstechnik wie PCA zu verwenden, um die Zeitreihen zu verdichten? Wenn der erste Eigenwert groß ist, bedeutet dies möglicherweise, dass Ihre Verwendung des Eigenvektors den größten Teil der Dynamik darstellt.

Zweitens und allgemeiner, was ist Ihre gewünschte Verwendung der Zeitreihen? Da ich sonst nicht viel weiß, würde ich vermuten, dass die Temperaturen stark variieren können. Wenn sich einige Temperaturaufzeichnungen beispielsweise in der Nähe von Städten befinden, kann dies zu einem Effekt vom Typ "Wärmeinsel" führen. Oder vielleicht führt eine kleine Änderung der seitlichen Entfernung zu einer großen Änderung der vertikalen Entfernung - ein Ort könnte sich auf Meereshöhe und direkt am Meer befinden, und ein anderer nicht "zu weit entfernt", sondern auf einem Kilometer Höhe. Die hätten definitiv unterschiedliche Temperaturen!

Dies sind nur einige Gedanken. Vielleicht könnte jemand anderes hineinspringen und eine bessere Antwort geben.

rbatt
quelle
1
Guter Punkt. Um ehrlich zu sein, kann ich mich nicht an den Kontext dieser Frage erinnern, und ich habe das Gefühl, dass meine Kommentare irreführend waren. Ich war speziell daran interessiert, die allen Stationen gemeinsame Variabilität nicht zu verlieren, sondern außer Phase zu sein. Denken Sie an Stationen auf dem ganzen Kontinent und an eine Kaltfront. Ein einfacher räumlicher Durchschnitt könnte im Grunde genommen die Kaltfront entfernen, was nicht wirklich gut ist, da jede Station sie stark zeigen würde, aber zu unterschiedlichen Zeiten. Wahrscheinlich könnte es eine Möglichkeit sein, eine PCA auf jeder Station auszuführen und dann die Ergebnisse zu mitteln, um dies zu umgehen.
naught101
O wow, ok, wenn Sie also versuchen, den Trend in der Zeitreihe über die Region zu charakterisieren, sollten Sie die Zeitreihe möglicherweise stationär machen und jeweils einen Mittelwert von 0 haben. Sie können auch versuchen, den Tageszyklus aus zu entfernen jeder (oder nehmen Sie einfach tägliche Durchschnittswerte). Dann würden Sie mit niederfrequenten Temperaturänderungen zurückbleiben, die jeweils um einen Mittelwert von 0 zentriert sind. Sobald Sie diese haben, könnten Sie möglicherweise die zentrierte + stationäre Zeitreihe mithilfe einer Dimensionsreduktionstechnik wie PCA verdichten. Ich bin froh, dass Sie ein wenig über den Kontext der Frage gesprochen haben, b / c das hilft wirklich. Gutes Zeug!
Rbatt