Artikel zur Fehlerbehandlung in verteilten Systemen

10

Welche Dokumente zum Umgang mit Fehlern in verteilten Systemen empfehlen Sie?

Alexandru
quelle
2
Ich bin mit dem Thema nicht vertraut, aber gibt es nicht zu viele? Auch empfehlen für was?
Tsuyoshi Ito
5
Die Frage scheint viel zu weit gefasst zu sein; Ich würde vermuten, dass die Hälfte aller Artikel im verteilten Rechnen irgendwie mit Fehlertoleranz zusammenhängt.
Jukka Suomela
2
definitiv zu breit. Abstimmung zum Schließen ...
Suresh Venkat
Vielleicht ist die Frage gar nicht so schlecht. Ich habe versucht, einige Werke unten zu empfehlen.
Dai Le
1
Die Frage wäre besser gewesen, wenn Sie diese Informationen ursprünglich als Motivation aufgenommen hätten.
Dave Clarke

Antworten:

8

Vielleicht möchten Sie einen Blick auf die Werke werfen, die 2010 Tushar D. Chandra, Vassos Hadzilacos und Sam Toueg mit dem Edsger W. Dijkstra-Preis ausgezeichnet haben :

Diese Artikel führen den Begriff der Fehlerdetektoren in einem verteilten System in einem allgemeinen und präzisen Rahmen ein. Intuitiv versuchten sie, die minimale Menge an Fehlerinformationen zu untersuchen, die zur Lösung des Konsenses erforderlich sind. Es stellt sich heraus, dass Sie keinen perfekten Fehlerdetektor benötigen, um den Konsens zu lösen. Selbst unzuverlässige Fehlerdetektoren, die bestimmte Mindestbedingungen erfüllen, reichen für die Aufgabe aus. Diese Artikel waren sehr einflussreich für den Umgang mit Fehlern in verteilten Systemen.

Dai Le
quelle
3

Welche Art von Fehlern im System? Suchen Sie nach Lösungen für die Behandlung byzantinischer Fehler oder nur nach dem klassischen Fail-Stop-Modell? Lösungen bei Vorhandensein byzantinischer Knoten in einem verteilten System sind das interessantere Problem. Das Problem wurde von Leslie Lamport formalisiert (das Problem der byzantinischen Generäle), und das Papier von Barbara Liskov und Miguel Castro aus dem Jahr 1999 stellt die am besten funktionierende praktische Lösung „Praktische byzantinische Fehlertoleranz“ vor. Ursprüngliche formale Modelle zur Behandlung der Fehlertoleranz umfassen die staatlichen Maschinenansatz von Fred Schneider und Replikation mit Ansichtsstempeln Ich stimme zu, dass die Frage sehr allgemein ist, das Feld immens ist und die Theorie die Grundlage für die meisten Systeme bildet, die heute online laufen. Vielleicht würde ein spezifischeres Fehlermodell und die Problemdomäne helfen, dies zu erreichen bessere Antworten

Kryptos
quelle
3

Hier ist eine Sammlung von Mustern für den Umgang mit Fehlern in verteilten Systemen:

Für allgemeinere Arbeiten gibt es alternativ das Buch Einführung in die zuverlässige verteilte Programmierung von Rachid Guerraoui und Luis Rodrigues, das eine breite Palette praktischer Algorithmen enthält, darunter viele Varianten zur Fehlerbehebung. Der klassischere Text Distributed Algorithms von Nancy Lynch deckt aus theoretischer Sicht einen ähnlichen Bereich ab.

Dave Clarke
quelle