Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option zu sein und bietet Algorithmen für Regressions- und Clustering-Aufgaben .
Was ich nur schwer finden kann, ist eine Lösung für die Erkennung von Anomalien oder Ausreißern.
Da Mahout Hidden-Markov-Modelle und eine Vielzahl von Clustering-Techniken (einschließlich K-Means) enthält, habe ich mich gefragt, ob es möglich wäre, ein Modell zur Erkennung von Ausreißern in Zeitreihen zu erstellen. Ich wäre dankbar, wenn mir jemand, der Erfahrung damit hat, einen Rat geben könnte
- wenn es möglich ist und falls es möglich ist
- wie es geht, plus
- eine Schätzung des Aufwandes und
- Genauigkeit / Probleme dieses Ansatzes.
quelle
Antworten:
Ich würde einen Blick auf den T-Digest-Algorithmus werfen . Es wurde in Mahout und auch in einige andere Bibliotheken für Big Data Streaming integriert. Weitere Informationen zu diesem Algorithmus und zur Erkennung von Big-Data-Anomalien im Allgemeinen finden Sie in den nächsten Ressourcen:
quelle
Sie können sich auf meine Antwort beziehen, die sich auf die Methode zur Erkennung von H2O R- oder Python-Anomalien in Stackexchange bezieht , da diese ebenfalls skalierbar ist.
quelle