Zeitreihen- und Anomalieerkennung

15

Ich möchte einen Algorithmus zum Erkennen einer Anomalie in Zeitreihen einrichten und plane, dafür Clustering zu verwenden.

  • Warum sollte ich eine Distanzmatrix für das Clustering verwenden und nicht die rohen Zeitreihendaten ?,

  • Zum Erkennen der Anomalie verwende ich Dichtebasiertes Clustering, einen Algorithmus als DBscan. Würde das in diesem Fall funktionieren? Gibt es eine Online-Version für das Streaming von Daten?

  • Ich möchte die Anomalie erkennen, bevor sie auftritt. Wäre es also eine gute Wahl, einen Trenderkennungsalgorithmus (ARIMA) zu verwenden?

napsterockoeur
quelle
Es ist korrekt DBSCAN geschrieben. Es ist eine Abkürzung. Ich bin mir nicht sicher, was du versuchst zu tun. Erkennen von Anomalien innerhalb einer Zeitreihe oder einer gesamten anomalen Zeitreihe.
Anony-Mousse
Ja DBSCAN, genau! Was ich versuche zu tun, ist eine Online-Erkennungsanomalie in einem Zeitreihendatensatz! so! irgendeine Anfrage? danke
grüße
Online wie in wachsenden Zeitreihen oder wie in zusätzlichen Serien, die hinzugefügt werden? Auch hier sind diese sehr unterschiedlich, und Sie müssen sehr klar sein, was Sie meinen.
Anony-Mousse -Reinstate Monica
Ich meine mit online (Stream), eine wachsende Zeitreihe, die von einem Sensor kommt. Jede Stunde wird ein Satz von Daten (Vektor) empfangen.
napsterockoeur

Antworten:

12

In Bezug auf Ihre erste Frage empfehle ich Ihnen, diesen berühmten Artikel zu lesen (Clustering von Zeitreihen-Teilfolgen ist bedeutungslos), bevor Sie Clustering für eine Zeitreihe durchführen. Es ist klar geschrieben und zeigt viele Fallstricke, die Sie vermeiden möchten.

gui11aume
quelle
6

Anomalieerkennung oder "Interventionserkennung" wurde von GCTiao und anderen verfochten. Wissenschaft zu betreiben bedeutet, nach wiederholten Mustern zu suchen. Anomalien zu erkennen bedeutet, Werte zu identifizieren, die nicht wiederholten Mustern folgen. Wir lernen aus Newton: "Wer die Wege der Natur kennt, wird ihre Abweichungen leichter bemerken, und wer sie kennt, wird ihre Wege genauer beschreiben." Man lernt die Regeln, indem man beobachtet, wann die aktuellen Regeln versagen. Betrachten Sie die Zeitreihen 1,9,1,9,1,9,5,9. Um die Anomalie zu identifizieren, muss man ein Muster haben. Die "5" ist genauso eine Anomalie wie "14". Um das Muster zu identifizieren, verwenden Sie einfach ARIMA und in diesem Fall wird die "Anomalie" offensichtlich. Probieren Sie verschiedene Software / Ansätze aus und sehen Sie, welche ein ARIMA-Modell der Größenordnung 1,0 vorschlägt. 0 mit einem Koeffizienten von -1,0. Verwenden Sie Google / Search-Verfahren, um "automatische Arima" oder "automatische Interventionserkennung" zu finden. Sie könnten von kostenlosen Dingen enttäuscht sein, da es sich lohnen könnte, was Sie dafür bezahlen. Es könnte interessant sein, es selbst zu schreiben, wenn Sie über einen umfangreichen Zeitreihen-Hintergrund verfügen und einige Jahre zu verschwenden sind. Entfernungsbasierte Methoden unterliegen schwerwiegenden Einschränkungenhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf

IrishStat
quelle
Vielen Dank, Sir IrishStat. Ich bin völlig in Ordnung mit Ihnen, dass es große Einschränkungen bei entfernungsbasierten Methoden gibt, und ich denke auch bei den anderen Methoden. Aus diesem Grund teste ich die Dichtebasismethode. Ich habe viele Artikel gesehen, die gesprochen haben über mal serielle Anomalieerkennung, wie NASA-Forschung, Universitäten usw. aber kleiner Fortschritt, bei bestimmten Datenproblemen Und vor kurzem habe ich eine gute kostenlose Software zur Ausreißererkennung gefunden: MOA von Weka! Hast du es schon mal getestet? Es ist eine Open-Source-Software. Ich versuche, sie für die Entwicklung und Integration meines kleinen Algorithmus für Erkennungsanomalien zu verwenden.
napsterockoeur
oh: Zu
Ihrer Information