Ausnahmen und Fehler in IoT-Produktionsgeräten verfolgen?

Wie verfolgen Unternehmen derzeit Fehler auf IoT-Geräten, Gateways und Plattformen? Mein Unternehmen verwendet Papertrail, um Protokolle von allen Geräten zu aggregieren. Dies führt jedoch häufig dazu, dass wir zwischen mehreren Systemen hin- und herkratzen , wenn in der Produktion ein Fehler auftritt.

Ich suche nach einer Möglichkeit, unsere "Zeit bis zur Grundursache" zu reduzieren, wenn Ausnahmen behoben werden, die möglicherweise an einem Ort (z. B. auf einer IoT-Plattform) generiert wurden, aber aufgrund eines Problems an einer anderen Stelle in der EU entstanden sind Stapel - zB Datenfehler vom Edge-Gerät.

In Bezug auf das, was ich in diesem Bereich gefunden habe, eignen sich Sentry und Rollbar gut für die Nachverfolgung von Ausnahmen auf Servern oder Apps, bieten jedoch keine Möglichkeit, Kaskadenfehler zu verfolgen, wie im vorherigen Absatz erläutert.

Gibt es Systeme, die dies besser machen als die Textprotokollierung? Ich möchte speziell die Ereignisse im Breadcrumb-Stil nutzen, die Sie von Sentry erhalten, aber mit der Verfolgung über ein verteiltes System.

remote-access product-design hookd
quelle

Verteilte Verfolgung

Die Idee hinter einer lohnenden verteilten Ablaufverfolgung ist am bekanntesten in diesem Google-Whitepaper über die Dapper-Lösung . Beachten Sie, dass ich nicht sage, dass sie es erfunden haben. Im Wesentlichen funktioniert es für IoT genauso. Starten Sie den Trace einfach am Rand Ihres Backends oder sogar auf den Endgeräten.

Während sich das Google-Whitepaper mehr oder weniger auf serverseitige Systeme konzentriert, kann das Konzept leicht an Endgeräte angepasst werden. Die Magie der Verwendung von Trace- und Span-IDs zur Verfolgung aller Ihrer Informationen im gesamten System zeigt sich in jeder Visualisierung, die Netflix über Vizceral durchführt, das kürzlich als Open-Source- Version bereitgestellt wurde . Was im Blog unter Regional View visualisiert wird, basiert vollständig auf Live-Protokollanalysen, bei denen die Anrufe über Trace-IDs korreliert werden. Beachten Sie, dass Netflix - wie Google im Dapper-Artikel erwähnt - eine Stichprobe der Anrufe auf seiner API hat. Google erwähnte 1: 1000 in der Zeitung - die ein paar Jahre alt ist. Anscheinend hat Netflix bei einigen seiner Anfragetypen bereits 1: 1 Million erreicht.

Ich weiß nichts über Ihr System, aber sehr wahrscheinlich können Sie mit einer tatsächlichen 100% igen Ablaufverfolgung beginnen.

So oder so, solange Sie entweder den Trace von Anfang an mit Ihren IoT-Geräten abgleichen oder sogar die Trace-IDs auf Ihren Endpunkten erstellen können, hindert Sie nichts daran, diese Ideen so anzupassen, dass sie Ihre Edge-Geräte einschließen.

Helmar
quelle

Danke Helmar, ich wünschte, ich hätte Dapper in meiner ursprünglichen Frage erwähnt, weil ich bereits über diesen Bereich gelesen hatte! Es gibt sicherlich Spielraum, dies zu nutzen, aber ich hatte auch gehofft zu sehen, ob es andere existierende Lösungen gibt, die bereits verwendet werden?

Hookd

Ausnahmen und Fehler in IoT-Produktionsgeräten verfolgen?

Antworten:

Verteilte Verfolgung