Wie fülle ich fehlende Daten in Zeitreihen ein?

15

Ich habe eine große Anzahl von Verschmutzungsdaten, die im Laufe von 2 Jahren alle 10 Minuten aufgezeichnet wurden, es gibt jedoch eine Reihe von Lücken in den Daten (einschließlich einiger, die sich über mehrere Wochen erstrecken).

Die Daten scheinen ziemlich saisonal zu sein und es gibt tagsüber eine große Variation im Vergleich zur Nacht, in der die Werte nicht stark variieren und die Datenpunkte niedriger sind.

Ich habe darüber nachgedacht, ein Lössmodell an die Tag- und Nachtzeit-Teilmengen separat anzupassen (da ein offensichtlicher Unterschied zwischen ihnen besteht) und dann die Werte der fehlenden Daten vorherzusagen und diese Punkte auszufüllen.

Ich habe mich gefragt, ob dies ein geeigneter Weg ist, um dieses Problem anzugehen, und ob es auch notwendig ist, lokale Variationen in die vorhergesagten Punkte einzufügen.

Jamesm131
quelle

Antworten:

20

Die Antwort hängt von Ihrem Studiendesign ab (z. B. Querschnitts-Zeitreihen? Kohorten-Zeitreihen, serielle Kohorten-Zeitreihen?). Honaker und King haben einen Ansatz entwickelt, der für Querschnittszeitreihen nützlich ist (möglicherweise nützlich für serielle Kohortenzeitreihen, abhängig von Ihren Annahmen), einschließlich des R- Pakets Amelia II zur Eingabe solcher Daten. Inzwischen ist Spratt & Co. haben einen anderen Ansatz beschrieben, der in einigen Kohorten-Zeitreihendesigns verwendet werden kann, bei Software-Implementierungen jedoch spärlich ist.

Ein Querschnitts-Zeitreihendesign (auch als Panel-Studiendesign bezeichnet) ist ein Design, bei dem eine Population (oder Populationen) wiederholt (z. B. jedes Jahr) unter Verwendung desselben Studienprotokolls (z. B. gleicher Variablen, Instrumente usw.) beprobt wird (werden). ). Wenn die Stichprobenstrategie repräsentativ ist, ergeben diese Daten ein jährliches Bild (eine Messung pro Teilnehmer oder Proband) der Verteilung dieser Variablen für jede Population in der Studie.

Ein Kohorten-Zeitreihendesign (auch bekannt als wiederholtes Kohorten-Studiendesign, Längsschnitt-Studiendesign, manchmal auch als Panel-Studiendesign bezeichnet) ist eines, bei dem einzelne Analyseeinheiten einmal abgetastet und über einen langen Zeitraum verfolgt werden. Die Personen können auf repräsentative Weise aus einer oder mehreren Populationen beprobt werden. Allerdings ist eine repräsentative Kohorte Zeitreihe Probe wird eine zunehmend schlechte Vertreter der geworden Zielpopulation (zumindest in menschlichen Populationen) im Laufe der Zeit, weil der Menschen geboren werden oder Alterung in der Zielpopulation und zu sterben oder davon Alterung aus, entlang mit Einwanderung und Auswanderung.

Ein Querschnitts-Zeitreihendesign (auch bekannt als wiederholtes, multi- und multiples Kohorten- oder Panel-Studiendesign) ist eines, bei dem eine Population wiederholt (z. B. jedes Jahr) unter Verwendung desselben Studienprotokolls beprobt wird (werden) (z. B. dieselben Variablen, Instrumente usw.), mit denen einzelne Analyseeinheiten innerhalb einer Population zu zwei Zeitpunkten während des Zeitraums (z. B. während des Jahres) gemessen werden, um Maßzahlen für die Änderungsrate zu erstellen. Wenn die Stichprobenstrategie repräsentativ ist, ergeben diese Daten ein jährliches Bild der Änderungsraten dieser Variablen für jede Population in der Studie.

Literaturhinweise
Honaker, J. und King, G. (2010). Was über fehlende Werte in Zeitreihenquerschnittsdaten zu tun . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J. und Tilling, K. (2010). Strategien zur multiplen Imputation in Längsschnittstudien . American Journal of Epidemiology , 172 (4): 478–4876.

Alexis
quelle
Danke für Ihre Antwort. Ich habe mich nur gefragt, ob Sie die verschiedenen Arten von Zeitreihen (Kohorte, Querschnitt usw.) definieren können, da ich für diese Art von Studie noch relativ neu bin und diese Begriffe noch nicht kennengelernt habe.
Jamesm131
@ Jamesm131 Siehe meine bearbeitete Antwort.
Alexis
7

Sie können das imputeTS- Paket in R verwenden. Ich glaube, die Daten, an denen Sie arbeiten, sind univariate Zeitreihen. Das imputeTS-Paket ist auf (univariate) Zeitreihenimputation spezialisiert. Es bietet verschiedene Implementierungen von Imputationsalgorithmen. Neben den Imputationsalgorithmen bietet das Paket auch Funktionen zum Zeichnen und Drucken fehlender Datenstatistiken. Nun, ich empfehle Ihnen, sich mit Zustandsraummodellen für fehlende Werte zu befassen. Dieses Paket sollte Ihnen bei Ihrer Analyse helfen.

GD_N
quelle