Ich versuche, eine Zeitreihe auf vierteljährliche Stichprobendaten (tierische Biomasse) über einen Zeitraum von 10 Jahren mit 3 Wiederholungen pro Quartal anzuwenden. Also 40 Daten, aber insgesamt 120 Beobachtungen.
Ich habe SARIMA'a in Shumway und Stoffers Zeitreihenanalyse und ihren Anwendungen gelesen und Woodward et al. Die angewandte Zeitreihenanalyse von al., und nach meinem Verständnis basiert jedes Modell auf einer einzelnen Beobachtung zu jedem Zeitpunkt in der Zeitreihe.
FRAGE: Wie kann ich die Variation in jeder Beobachtung in mein Modell aufnehmen? Ich könnte eine Reihe auf dem Mittelwert aufbauen, aber ich würde die Variation bei jeder Beobachtung verlieren und ich denke, das ist entscheidend für mein Verständnis dessen, was passiert.
Antworten:
Je nachdem, was genau Sie unter "3 Wiederholungen pro Quartal" verstehen, kann ein Panel-Datenmodell ( Wikipedia ) sinnvoll sein. Dies würde bedeuten, dass Sie drei Messungen pro Quartal durchführen, eine aus drei verschiedenen Quellen, die über die Zeit gleich bleiben. Ihre Daten würden ungefähr so aussehen:
Wenn Sie sich das ansehen, gibt es eine Reihe von Modellen für die Arbeit mit Paneldaten. Hier ist eine anständige Präsentation , die einige der grundlegenden R abdeckt, die Sie zum Anzeigen von Paneldaten verwenden würden. Dieses Dokument geht etwas tiefer, wenn auch aus ökonometrischer Sicht.
Wenn Ihre Daten jedoch nicht ganz mit den Panel-Datenmethoden übereinstimmen, stehen andere Tools für "gepoolte Daten" zur Verfügung. Eine Definition aus diesem Artikel (pdf) :
Wie Sie anhand dieser Definition sehen können, hängen die Techniken, die Sie verwenden werden, davon ab, was genau Sie aus Ihren Daten lernen möchten.
Wenn ich Ihnen einen Startplatz vorschlagen würde, unter der Annahme, dass Ihre drei Ziehungen für jedes Quartal im Zeitverlauf konsistent sind, würde ich sagen, beginnen Sie mit a Schätzer für feste Effekte (auch als Innenschätzer bezeichnet) mit einem Paneldatenmodell von Ihnen verwenden Daten.
In meinem obigen Beispiel würde der Code ungefähr so aussehen:
Welches gibt uns die folgende Ausgabe:
Hier können wir die Auswirkung der Zeit im Koeffizienten auf die Viertelvariable sowie die Auswirkung der Zugehörigkeit zu Gruppe B oder Gruppe C (im Gegensatz zu Gruppe A) deutlich sehen.
Hoffe das weist dich irgendwo in die richtige Richtung.
quelle
Ich finde das interessant. Mein Vorschlag wäre, die drei Datenpunkte zu mitteln, um eine reibungslose Anpassung der Zeitreihen zu erhalten. Wenn Sie dies tun und dabei ignorieren, dass Sie durchschnittlich drei Beobachtungen gemacht haben, werfen Sie Informationen weg. Für jeden Zeitpunkt können Sie jedoch die quadratischen Abweichungen vom Mittelwert summieren. Poolen Sie diese Quadratsummen über alle Zeiträume und dividieren Sie durch n-1, wobei n die Gesamtzahl der für die Berechnung verwendeten Punkte ist. Wenn Sie ein Modell mit Zeitreihenstruktur haben (z. B. Trends, saisonale Komponente, AR-Abhängigkeitsstruktur), kann diese Berechnung eine unabhängige und unvoreingenommene Schätzung der Varianz des Fehlerterms im Modell sein.
quelle