Als Nebenhobby habe ich mich mit der Vorhersage von Zeitreihen befasst (insbesondere mit R).
Für meine Daten habe ich die Anzahl der Besuche pro Tag für jeden Tag, der fast 4 Jahre zurückliegt. In diesen Daten gibt es einige unterschiedliche Muster:
- Montag-Fr hat viele Besuche (am höchsten am Mo / Di), aber drastisch weniger am Sa-So.
- Bestimmte Jahreszeiten fallen (dh viel weniger Besuche rund um US-Feiertage, Sommer zeigen weniger Wachstum)
- Signifikantes Wachstum von Jahr zu Jahr
Es wäre schön, mit diesen Daten ein bevorstehendes Jahr prognostizieren zu können und damit auch ein saisonbereinigtes Wachstum von Monat zu Monat zu erzielen. Die Hauptsache, die mich mit einer monatlichen Ansicht abschreckt, ist:
- Bestimmte Monate haben mehr Mo / Di als andere Monate (und das ist auch über Jahre nicht konsistent). Daher muss ein Monat, der mehr Wochentagen passiert, entsprechend angepasst werden.
Das Erkunden von Wochen scheint ebenfalls schwierig zu sein, da sich die Wochennummerierungssysteme je nach Jahr von 52 bis 53 ändern, und es scheint, dass ts
dies nicht funktioniert.
Ich denke darüber nach, einen Durchschnitt für die Wochentage des Monats zu ermitteln, aber die resultierende Einheit ist etwas seltsam (Wachstum der durchschnittlichen Wochentagsbesuche), und das würde dazu führen, dass Daten gelöscht werden, die gültig sind.
Ich bin der Meinung, dass diese Art von Daten in Zeitreihen häufig vorkommt (z. B. könnte der Stromverbrauch in Bürogebäuden so etwas sein). Hat jemand einen Rat, wie man sie modelliert, insbesondere in R?
Die Daten, mit denen ich arbeite, sind ziemlich einfach. Sie beginnen wie folgt:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
und setzt sich bis heute so fort, mit einem allgemeinen Wachstumstrend, einigen Einbrüchen in den US-Ferienwochen und einem Wachstum, das sich im Sommer im Allgemeinen verlangsamt.
quelle
ts
(und sogarmsts
) passt nicht zu einer Stichprobenperiode von einer Woche mit einer "natürlichen" Periode von einem Jahr (Kalender auch nicht wirklich, denke ich). Oder ich verstehe einfach nicht, wie das funktioniert ...Antworten:
Ich modelliere also ständig Daten. Sie müssen einbeziehen
Der statistische Ansatz heißt Transfer Function Modeling with Intervention DEtection. Wenn Sie Ihre Daten entweder privat über [email protected] oder vorzugsweise über SE teilen möchten, würde ich Ihnen gerne die Besonderheiten eines endgültigen Modells zeigen und Ihre Fähigkeit fördern, dies selbst zu tun oder Ihnen zumindest zu helfen und andere, um zu verstehen, was getan werden muss und was getan werden kann. In beiden Fällen kommen Sie schlauer heraus, ohne einen Schatz auszugeben, sei es Münze oder Zeit. Sie können einige meiner anderen Antworten auf Zeitreihenfragen lesen, um mehr zu erfahren.
quelle