Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten stapelweise zu verarbeiten und die Storm-Ergebnisse zu verwerfen, nachdem dieselben Daten von Hadoop verarbeitet wurden.
Was sind die Gründe für die Entstehung dieser Fehlerakkumulation? und warum ist es in Hadoop nicht vorhanden? Da ich nicht mit Storm gearbeitet habe, kenne ich die Gründe dafür nicht. Liegt es daran, dass Storm einen ungefähren Algorithmus verwendet, um die Daten zu verarbeiten, um sie in Echtzeit zu verarbeiten? oder ist die ursache etwas anderes?
quelle