Skalierbare Ausreißer- / Anomalieerkennung

10

Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option zu sein und bietet Algorithmen für Regressions- und Clustering-Aufgaben .

Was ich nur schwer finden kann, ist eine Lösung für die Erkennung von Anomalien oder Ausreißern.

Da Mahout Hidden-Markov-Modelle und eine Vielzahl von Clustering-Techniken (einschließlich K-Means) enthält, habe ich mich gefragt, ob es möglich wäre, ein Modell zur Erkennung von Ausreißern in Zeitreihen zu erstellen. Ich wäre dankbar, wenn mir jemand, der Erfahrung damit hat, einen Rat geben könnte

  1. wenn es möglich ist und falls es möglich ist
  2. wie es geht, plus
  3. eine Schätzung des Aufwandes und
  4. Genauigkeit / Probleme dieses Ansatzes.
Doppelbyte
quelle
1
Dies ist zu vage, um beantwortet zu werden. Zeitreihen sind zu unterschiedlich, um nur k-Mittel auf sie zu werfen und irgendetwas Nützliches herauszuholen. Es hängt stark von Ihren Daten ab.
Hat aufgehört - Anony-Mousse
1
Schauen Sie sich zur Erkennung von Ausreißern die Algorithmen in ELKI an. Dies scheint die vollständigste Sammlung der Ausreißererkennung zu sein.
Hat aufgehört - Anony-Mousse
In den neueren Elasticsearch-Versionen ist die Erkennung von Zeitreihenanomalien integriert (ich denke, Sie müssen das X-Pack kaufen). Ich bin nicht sicher, welche Algorithmen sie verwenden, aber es könnte sich lohnen, eine Standardlösung zu untersuchen.
Tom

Antworten:

7

Ich würde einen Blick auf den T-Digest-Algorithmus werfen . Es wurde in Mahout und auch in einige andere Bibliotheken für Big Data Streaming integriert. Weitere Informationen zu diesem Algorithmus und zur Erkennung von Big-Data-Anomalien im Allgemeinen finden Sie in den nächsten Ressourcen:

  1. Praktisches Buch zur Erkennung von Anomalien beim maschinellen Lernen.
  2. Webinar: Erkennung von Anomalien, wenn Sie nicht wissen, was Sie finden müssen
  3. Anomalieerkennung in der Elasticsearch .
  4. Milliardenbetrug mithilfe von Anomalieerkennung überwinden: Ein Signalverarbeitungsansatz unter Verwendung von Argyle-Daten auf der Hortonworks-Datenplattform mit Accumulo
prudenko
quelle
Wie vergleicht sich t-Digest mit dem p-Quadrat-Algorithmus?
David Marx
Vielen Dank für die Antwort: Dies ist ein einfaches Modell zur Berechnung extremer Quantile, und ich denke, es wird meinen Anforderungen entsprechen. Für komplexere Zeitreihen, die keine nahezu stationäre Verteilung haben, kann dieser Ansatz jedoch fehlschlagen, und dann würden wir meiner Meinung nach etwas Adaptives wie eine Markov-Kette benötigen.
Doppelbyte
0

Sie können sich auf meine Antwort beziehen, die sich auf die Methode zur Erkennung von H2O R- oder Python-Anomalien in Stackexchange bezieht , da diese ebenfalls skalierbar ist.

0xF
quelle