Ich möchte einen Algorithmus zum Erkennen einer Anomalie in Zeitreihen einrichten und plane, dafür Clustering zu verwenden.
Warum sollte ich eine Distanzmatrix für das Clustering verwenden und nicht die rohen Zeitreihendaten ?,
Zum Erkennen der Anomalie verwende ich Dichtebasiertes Clustering, einen Algorithmus als DBscan. Würde das in diesem Fall funktionieren? Gibt es eine Online-Version für das Streaming von Daten?
Ich möchte die Anomalie erkennen, bevor sie auftritt. Wäre es also eine gute Wahl, einen Trenderkennungsalgorithmus (ARIMA) zu verwenden?
time-series
clustering
trend
napsterockoeur
quelle
quelle
Antworten:
In Bezug auf Ihre erste Frage empfehle ich Ihnen, diesen berühmten Artikel zu lesen (Clustering von Zeitreihen-Teilfolgen ist bedeutungslos), bevor Sie Clustering für eine Zeitreihe durchführen. Es ist klar geschrieben und zeigt viele Fallstricke, die Sie vermeiden möchten.
quelle
Anomalieerkennung oder "Interventionserkennung" wurde von GCTiao und anderen verfochten. Wissenschaft zu betreiben bedeutet, nach wiederholten Mustern zu suchen. Anomalien zu erkennen bedeutet, Werte zu identifizieren, die nicht wiederholten Mustern folgen. Wir lernen aus Newton: "Wer die Wege der Natur kennt, wird ihre Abweichungen leichter bemerken, und wer sie kennt, wird ihre Wege genauer beschreiben." Man lernt die Regeln, indem man beobachtet, wann die aktuellen Regeln versagen. Betrachten Sie die Zeitreihen 1,9,1,9,1,9,5,9. Um die Anomalie zu identifizieren, muss man ein Muster haben. Die "5" ist genauso eine Anomalie wie "14". Um das Muster zu identifizieren, verwenden Sie einfach ARIMA und in diesem Fall wird die "Anomalie" offensichtlich. Probieren Sie verschiedene Software / Ansätze aus und sehen Sie, welche ein ARIMA-Modell der Größenordnung 1,0 vorschlägt. 0 mit einem Koeffizienten von -1,0. Verwenden Sie Google / Search-Verfahren, um "automatische Arima" oder "automatische Interventionserkennung" zu finden. Sie könnten von kostenlosen Dingen enttäuscht sein, da es sich lohnen könnte, was Sie dafür bezahlen. Es könnte interessant sein, es selbst zu schreiben, wenn Sie über einen umfangreichen Zeitreihen-Hintergrund verfügen und einige Jahre zu verschwenden sind. Entfernungsbasierte Methoden unterliegen schwerwiegenden Einschränkungenhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
quelle