Wie Ben und Nar ausführlich erklärt haben, würde das Aufteilen des Datums- / Uhrzeitobjekts in Bereiche aus Datums- und Uhrzeitteilen dazu beitragen, saisonale Trends zu erkennen, bei denen das vollständige (und in der Regel noch schlimmere - eindeutige) Datums- / Uhrzeitobjekt nicht erkannt wird
Sie erwähnen keine spezifischen Maschinenlernalgorithmus Sie daran interessiert sind, aber im Falle sind Sie auch mit abstandsbasierte Clustering, wie k-Mittel interessiert, würde ich verallgemeinern in die das Datum Zeitobjekt Unix-Zeitformat . Dies würde einen einfachen numerischen Entfernungsvergleich für den Algorithmus ermöglichen, der lediglich angibt, wie weit 2 Datumswerte sind.
In Ihrem Beispiel verallgemeinere ich den Wert 2014-05-05 auf 1399248000 (die Unix-Zeit, die den Beginn des 5. Mai 2014, UTC, darstellt).
[Man könnte argumentieren, dass Sie dies erreichen können, indem Sie die Datums- und Uhrzeitangaben in alle möglichen Datums- und Uhrzeitbereiche einfügen. Dies würde jedoch die Größe Ihres Datensatzes erheblich erhöhen. Daher würde ich vorschlagen, die Unix-Zeit für die Entfernungsmessung und einige der Datums- / Zeitbereiche zu kombinieren.]
Kontext meiner Antwort : Bisher gab es großartige Antworten. Aber ich möchte das Gespräch erweitern, indem ich annehme, dass Sie über eine maschinelle Lernanwendung sprechen, um zukünftige Werte dieser bestimmten Zeitreihe vorherzusagen. In diesem Zusammenhang ist mein Rat unten.
Hinweis : Sehen Sie sich zunächst die herkömmlichen statistischen Prognosestrategien (z. B. Exponential Smoothing, SARIMAX oder Dynamic Regression) als Grundlage für die Prognoseleistung an. Obwohl maschinelles Lernen für eine Vielzahl von Anwendungen vielversprechend ist, gibt es für Zeitreihen bewährte statistische Methoden, die für Ihre Anwendung möglicherweise bessere Dienste leisten. Ich möchte Ihre Aufmerksamkeit auf zwei neue Artikel lenken:
Wenn Sie nach einer guten Leistung suchen, wählen Sie eine Metrik, die mit mehreren Modellen verglichen werden soll (z. B. MASE), und durchsuchen Sie verschiedene statistische Modelle (siehe unten) und Modelle für maschinelles Lernen (mit den oben genannten Strategien zur Funktionsentwicklung).
Prost,
Ressourcen für das Erlernen statistischer Prognosen : Ich würde zunächst das kostenlose Lehrbuch von Rob J. Hyndman hier lesen: https://otexts.org/fpp2/ . Der Text basiert auf einem R-Paket, das Sie problemlos in Ihre Analyse einbinden können : https://otexts.org/fpp2/appendix-using-r.html . Beachten Sie abschließend den Unterschied zwischen der Querschnittsvalidierung und der Zeitreihenvalidierung, wie hier erläutert: https://robjhyndman.com/hyndsight/tscv/ .
quelle