Saisonbereinigung der Zähldaten

12

Ich habe stl () in R verwendet, um die Zähldaten in Trend-, saisonale und unregelmäßige Komponenten zu zerlegen. Die resultierenden Trendwerte sind keine ganzen Zahlen mehr. Ich habe folgende Fragen:

  1. Ist stl () eine geeignete Methode, um die Saison für Zählungsdaten zu entziehen?
  2. Kann ich lm () verwenden, um die Trendkomponenten zu modellieren, da der resultierende Trend nicht mehr interger-bewertet ist?
ann
quelle

Antworten:

8

Es gibt kein inhärentes Problem bei der Verwendung von stl () zum Deseasonalisieren der Zähldaten. Es ist jedoch zu beachten, dass Zähldaten im Allgemeinen eine zunehmende Varianz aufweisen, wenn der Mittelwert zunimmt. Dies wird häufig sowohl bei den saisonalen als auch bei den zufälligen Elementen der Zersetzung beobachtet. Wenn Sie stl () für die Rohdaten verwenden, wird dies nicht berücksichtigt. Daher ist es möglicherweise am besten, zuerst den Logarithmus (Edit - oder Quadratwurzel) Ihrer Daten zu berücksichtigen.

Es ist egal, dass die Trendwerte keine ganzen Zahlen mehr sind. Sie können ähnlich wie die Parameter in einer Poisson-Verteilung gedacht werden. Obwohl eine verteilte Poisson-Variable eine Ganzzahl sein muss, muss dies nicht der Mittelwert sein.

Dies bedeutet jedoch nicht unbedingt, dass Sie die Trendkomponente mit lm () modellieren können. Bei der Modellierung von Trends in Zeitreihen gibt es viele Fallstricke, da falsche Korrelationen nur sehr schwer zu vermeiden sind. Üblicherweise wird die Serie zuerst entfernt und dann der verbleibende Teil modelliert.

Peter Ellis
quelle
1
Wie bestimmen Sie die Anzahl der zu berücksichtigenden Trends und die Länge jedes Trends? Unterscheiden Sie zwischen Pegelverschiebungen und Trends und generell, wie Sie sich bei Ausreißern / Lieferanten verhalten?
IrishStat
@IrishStat - ja, das sind alles gute Punkte, und ich habe nicht versucht, alle Probleme zu lösen. Machen Sie nur auf die Probleme aufmerksam, die mit der Verwendung der Trendkomponente aus der Ausgabe von Rs stl () als Antwortvariable in einer Regression verbunden sind . stl () verwendet in seiner Zerlegung eine lokal gewichtete Regression, die im Allgemeinen zu vernünftigen Ergebnissen führt, wenn es um Richtungsänderungen usw. geht, obwohl es natürlich Einschränkungen im Vergleich zu modellbasierten Methoden gibt, insbesondere für Prognosen.
Peter Ellis