Angenommen, ich habe etwas mehr als 20.000 monatliche Zeitreihen vom 05. Januar bis zum 11. Dezember. Diese repräsentieren jeweils globale Verkaufsdaten für ein anderes Produkt. Was wäre, wenn ich mich, anstatt Prognosen für jeden einzelnen von ihnen zu berechnen, nur auf eine kleine Anzahl von Produkten konzentrieren wollte, die "tatsächlich wichtig" sind?
Ich könnte diese Produkte nach dem jährlichen Gesamtumsatz ordnen und die Liste mit klassischem Pareto reduzieren. Trotzdem scheint es mir, dass einige Produkte, obwohl sie nicht viel zum Endergebnis beitragen, so einfach vorherzusagen sind, dass es eine schlechte Beurteilung wäre, sie wegzulassen. Ein Produkt, das in den letzten 10 Jahren jeden Monat einen Wert von 50 US-Dollar verkauft hat, klingt vielleicht nicht nach viel, erfordert jedoch so wenig Aufwand, um Vorhersagen über zukünftige Verkäufe zu erstellen, dass ich es genauso gut tun könnte.
Nehmen wir also an, ich teile meine Produkte in vier Kategorien ein: hoher Umsatz / einfach zu prognostizieren - niedriger Umsatz / einfach zu prognostizieren - hoher Umsatz / schwer zu prognostizieren - niedriger Umsatz / schwer zu prognostizieren.
Ich denke, es wäre vernünftig, nur die Zeitreihen der vierten Gruppe zurückzulassen. Aber wie genau kann ich die "Prognosefähigkeit" bewerten?
Der Variationskoeffizient scheint ein guter Ausgangspunkt zu sein (ich erinnere mich auch, dass ich vor einiger Zeit ein Papier darüber gesehen habe). Aber was ist, wenn meine Zeitreihen Saisonalität / Pegelverschiebungen / Kalendereffekte / starke Trends aufweisen?
Ich würde mir vorstellen, dass ich meine Bewertung nur auf die Variabilität der Zufallskomponente und nicht auf die der "Rohdaten" stützen sollte. Oder fehlt mir etwas?
Hat jemand schon einmal auf ein ähnliches Problem gestoßen? Wie würdet ihr das machen?
Wie immer wird jede Hilfe sehr geschätzt!
Dies ist ein ziemlich häufiges Problem bei der Prognose. Die traditionelle Lösung besteht darin, mittlere absolute prozentuale Fehler (MAPEs) für jedes Element zu berechnen. Je niedriger die MAPE, desto einfacher ist die Vorhersage des Artikels.
Ein Problem dabei ist, dass viele Serien Nullwerte enthalten und MAPE dann undefiniert ist.
Ich schlug eine Lösung in Hyndman und Koehler (IJF 2006) [Preprint-Version] vor, bei der mittlere absolute skalierte Fehler (MASEs) verwendet wurden. Für monatliche Zeitreihen würde die Skalierung auf saisonalen naiven Prognosen in der Stichprobe basieren. Das heißt, wenn eine Beobachtung zum Zeitpunkt , sind Daten von den Zeitpunkten 1 bis verfügbar und dann ist ein skalierter Fehler , wobei eine Prognose von Verwendung der Prognosemethode ist, die Sie für dieses Element implementieren. Nehmen Sie den mittleren absoluten Wert der skalierten Fehler, um die MASE zu erhalten. Beispielsweise könnten Sie einen rollierenden Ursprung verwenden (auch bekannt als)yt t T Q=1T−12∑t=13T|yt−yt−12|, qt=(yt−y^t)/Q y tythy^t yt Zeitreihen-Kreuzvalidierung ) und nehmen Sie den mittleren absoluten Wert der resultierenden Ein-Schritt- (oder Schritt-) Fehler.h
Serien, die leicht vorherzusagen sind, sollten niedrige MASE-Werte aufweisen. Hier wird "leicht zu prognostizieren" relativ zur saisonal naiven Prognose interpretiert. Unter bestimmten Umständen kann es sinnvoller sein, eine alternative Basismaßnahme zur Skalierung der Ergebnisse zu verwenden.
quelle
Sie könnten an ForeCA: Forecastable Component Analysis interessiert sein (Haftungsausschluss: Ich bin der Autor). Wie der Name schon sagt, handelt es sich um eine BSS-Technik (Dimension Reduction / Blind Source Separation), um die meisten vorhersagbaren Signale aus vielen multivariaten - mehr oder weniger stationären - Zeitreihen zu finden. Für Ihren speziellen Fall von 20.000 Zeitreihen ist dies möglicherweise nicht die schnellste Aufgabe (die Lösung umfasst multivariate Leistungsspektren und iterative, analytische Aktualisierung des besten Gewichtsvektors; außerdem könnte es zu Problemen mit .)p≫n
Es gibt auch ein R-Paket ForeCA bei CRAN (wieder: Ich bin der Autor), das grundlegende Funktionen implementiert. Derzeit unterstützt es die Funktionalität zum Schätzen des Prognosefähigkeitsmaßes für univariate Zeitreihen und verfügt über einige gute Wrapper-Funktionen für multivariate Spektren (wieder sind 20.000 Zeitreihen wahrscheinlich zu viel, um sie gleichzeitig zu verarbeiten).Ω(xt)
Aber vielleicht können Sie versuchen, die von Rob vorgeschlagene MASE-Maßnahme zu verwenden, um eine grobe Gittertrennung der 20.000 in mehreren Untergruppen vorzunehmen und dann ForeCA für jede separat anzuwenden.
quelle
Diese Antwort ist sehr spät, aber für diejenigen, die immer noch nach einem geeigneten Maß für die Vorhersagbarkeit für Zeitreihen der Produktnachfrage suchen, empfehle ich dringend, die ungefähre Entropie zu betrachten .
Die Produktnachfrage hat tendenziell eine sehr starke saisonale Komponente, was den Variationskoeffizienten (CV) unangemessen macht. ApEn (m, r) kann damit richtig umgehen. In meinem Fall setze ich, da meine Daten tendenziell eine starke wöchentliche Saisonalität aufweisen, die hier empfohlenen Parameter m = 7 und r = 0,2 * std .
quelle