Analyse von Zeitreihen mit vielen Nullwerten

19

Bei diesem Problem geht es eigentlich um die Branderkennung, es ist jedoch stark analog zu einigen Problemen bei der Erkennung des radioaktiven Zerfalls. Das beobachtete Phänomen ist sowohl sporadisch als auch sehr variabel; Daher besteht eine Zeitreihe aus langen Folgen von Nullen, die durch variable Werte unterbrochen werden.

Ziel ist nicht nur die Erfassung von Ereignissen (Nullenbruch), sondern die quantitative Charakterisierung der Ereignisse selbst. Die Sensoren sind jedoch begrenzt und zeichnen daher manchmal Null auf, selbst wenn die "Realität" nicht Null ist. Aus diesem Grund müssen beim Vergleich von Sensoren Nullen eingeschlossen werden.

Sensor B ist möglicherweise empfindlicher als Sensor A, und ich möchte dies statistisch beschreiben können. Für diese Analyse habe ich keine "Wahrheit", aber ich habe einen Sensor C, der von den Sensoren A und B unabhängig ist. Daher erwarte ich, dass eine bessere Übereinstimmung zwischen A / B und C eine bessere Übereinstimmung mit "Wahrheit" anzeigt. (Dies mag unsicher erscheinen, aber Sie müssen mir vertrauen - ich bin hier auf festem Grund, basierend auf dem, was aus anderen Studien über die Sensoren bekannt ist).

Das Problem ist also, wie man die "bessere Übereinstimmung von Zeitreihen" quantifiziert. Korrelation ist die naheliegende Wahl, wird jedoch von all diesen Nullen (die nicht ausgelassen werden dürfen) und natürlich überproportional von den Maximalwerten beeinflusst. Der RMSE-Wert könnte ebenfalls berechnet werden, würde jedoch in Bezug auf das Verhalten der Sensoren im Fall nahe Null stark gewichtet.

F1: Wie kann eine logarithmische Skalierung auf Werte ungleich Null angewendet werden, die dann in einer Zeitreihenanalyse mit Nullen kombiniert werden?

F2: Welche "Best Practices" können Sie für eine Zeitreihenanalyse dieser Art empfehlen, bei der das Verhalten bei Werten ungleich Null im Vordergrund steht, Nullwerte jedoch dominieren und nicht ausgeschlossen werden können?

Ed Hyer
quelle

Antworten:

11

Um Ihre Frage zu wiederholen: Wie geht der Analyst mit langen Perioden ohne Nachfrage um, die keinem bestimmten Muster folgen?

Die Antwort auf Ihre Frage lautet "Intermittierende Bedarfsanalyse" oder "Sparse Data Analysis". Dies tritt normalerweise auf, wenn Sie "viele Nullen" in Bezug auf die Anzahl der Nicht-Nullen haben. Das Problem ist, dass es zwei Zufallsvariablen gibt; die Zeit zwischen Ereignissen und die erwartete Größe des Ereignisses. Wie Sie sagten, ist die Autokorrelation (acf) des gesamten Satzes von Messwerten bedeutungslos, da die Folge von Nullen die acf fälschlicherweise verbessert. Sie können Themen wie "Crostons Methode" verfolgen, bei der es sich nicht um ein datenbasiertes Verfahren, sondern um ein modellbasiertes Verfahren handelt. Die Croston-Methode ist anfällig für Ausreißer und Änderungen / Trends / Pegelverschiebungen der Nachfragerate, dh der durch die Anzahl der geteilten Nachfrage Zeiträume seit der letzten Nachfrage: Ein viel strengerer Ansatz könnte darin bestehen, "Sparse Data - Unequally Spaced Data" zu verfolgen oder solche Suchen durchzuführen. Eine ziemlich geniale Lösung wurde mir von Prof. Ramesh Sharda von der OSU vorgeschlagen und ich benutze sie seit einigen Jahren in meiner Beratungspraxis. Wenn eine Serie Zeitpunkte hat, in denen Verkäufe anfallen, und lange Zeiträume, in denen keine Verkäufe anfallen, ist es möglich, Verkäufe in Verkäufe pro Periode umzuwandeln, indem der beobachtete Umsatz durch die Anzahl der Perioden ohne Verkäufe dividiert wird, wodurch eine Rate erhalten wird. Es ist dann möglich, ein Modell zwischen der Rate und dem Intervall zwischen Verkäufen zu identifizieren, das in einer prognostizierten Rate und einem prognostizierten Intervall gipfelt. Weitere Informationen finden Sie unter autobox.com und google "Intermittent Demand". Wenn eine Serie Zeitpunkte hat, in denen Verkäufe anfallen, und lange Zeiträume, in denen keine Verkäufe anfallen, ist es möglich, Verkäufe in Verkäufe pro Periode umzuwandeln, indem der beobachtete Umsatz durch die Anzahl der Perioden ohne Verkäufe dividiert wird, wodurch eine Rate erhalten wird. Es ist dann möglich, ein Modell zwischen der Rate und dem Intervall zwischen Verkäufen zu identifizieren, das in einer prognostizierten Rate und einem prognostizierten Intervall gipfelt. Weitere Informationen finden Sie unter autobox.com und google "Intermittent Demand". Wenn eine Serie Zeitpunkte hat, in denen Verkäufe anfallen, und lange Zeiträume, in denen keine Verkäufe anfallen, ist es möglich, Verkäufe in Verkäufe pro Periode umzuwandeln, indem der beobachtete Umsatz durch die Anzahl der Perioden ohne Verkäufe dividiert wird, wodurch eine Rate erhalten wird. Es ist dann möglich, ein Modell zwischen der Rate und dem Intervall zwischen Verkäufen zu identifizieren, das in einer prognostizierten Rate und einem prognostizierten Intervall gipfelt. Weitere Informationen finden Sie unter autobox.com und google "Intermittent Demand".

IrishStat
quelle
1
Ich habe ein Prognoseproblem mit zeitweiliger Nachfrage. Ich wurde gebeten zu lösen. Ich weiß, dass es einige Software gibt, die für diesen Zeitpunkt der Vorhersage spezifisch sind, aber nicht kostenlos sind. Können Sie mir bitte mitteilen, ob Sie integrierte Funktionen in Open Source-Software (wie z. B. R) kennen, um dieses Problem zu lösen? Ich habe gesucht, konnte es aber noch nicht finden ... Danke!
Assu
1
@assu: Mir ist keine freie Software bekannt, die Ihren Anforderungen entspricht.
IrishStat
4
@assu. Die croston()Funktion in dem forecastPaket in R implementiert die Croston-Methode zur Vorhersage von intermittierenden Bedarfsdaten.
Rob Hyndman