Es gibt zwei Haupttypen von Prozessorausfällen in verteilten Computermodellen:
(1) Absturzfehler: Ein Prozessor stoppt und startet nie wieder. (2) Byzantinische Ausfälle: Prozessoren verhalten sich widersprüchlich und böswillig.
Meine Frage ist:
Welche anderen Arten von Prozessorausfällen wurden untersucht, die sich nicht auf Abstürze oder byzantinische Ausfälle reduzieren lassen?
Auch eine genauere Frage:
Wurde ein Modell untersucht, bei dem mit einiger Wahrscheinlichkeit ein Prozess zum Zeitpunkt und ansonsten ausgeschaltet ist? Also blinkt jeder Prozess sozusagen ein und aus.
Am meisten interessiert mich, wie diese Misserfolge mit Konsensproblemen und anderen Problemen mit verteilten Vereinbarungen zusammenhängen.
Vielen Dank.
reference-request
dc.distributed-comp
Aaron Sterling
quelle
quelle
Antworten:
Kopiert aus den Kommentaren zur Frage nach Anfrage.
Ich habe mit Michel Raynal die Theorie des verteilten Rechnens übernommen und er beschrieb ein drittes Modell, bei dem Nachrichten zufällig abgelegt werden können. In diesem Modell kann es vorkommen, dass eine Nachricht im Hintergrund nicht zugestellt wird. Dies bedeutet jedoch nicht unbedingt, dass der Knoten ausgefallen ist. Es geht eher um Verbindungsausfälle als um Knotenausfälle "fair lossy channel model". Weitere Informationen finden Sie hier: Ruhender, einheitlicher und zuverlässiger Broadcast als Einführungsumfrage zu Orakeln mit Ausfalldetektoren - Michel Raynal (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)
quelle
Aufgrund der mit der byzantinischen Fehlertoleranz verbundenen hohen Ressourcenkosten wurden natürlich Fehlermodelle mit immer strengeren Annahmen analysiert, insbesondere im Hinblick auf den Ressourcenbedarf, um Fehler von eingeschränktem Typ zu tolerieren. ( Azadmanesh und Kieckhafer, 2002 ) liefern eine sehr schöne Taxonomie (siehe Abb. 1).
Die Art des Fehlermodus zwischen vollständig asymmetrischem byzantinischem Verhalten ( Knoten erforderlich ) und gutartigen Absturzfehlern ( f + 1 Knoten), die Sie suchen und die bereits von anderen oben erwähnt wurden, ist die Klasse von Symmetrische (omissive) Fehler , bei denen von einigen Empfängern keine Nachrichten empfangen werden, aber von keinem Knoten jemals eine wertfehlerhafte (gegnerische) Nachricht empfangen wird, für die nur 2 f + 1 Knoten erforderlich sind, um f Fehler zu tolerieren . Das obige Papier fasst auch die Ressourcenanforderungen für gemischte Szenarien zusammen.3f+1 f+1 2f+1 f
Eine andere Möglichkeit, Annahmen zum Fehlermodus zu modellieren, besteht darin, sich von der knotenzentrierten Sichtweise zu entfernen, bei der der Nachrichtenverlust als Fehler des Absenders modelliert wird, und das Verbindungsfehlermodell zu verwenden, bei dem es sich nur um eine doppelte Sichtweise handelt, sobald die Inkonsistenzen vorliegen, die sie verursachen können das System berücksichtigt werden. Dieses Modell wurde von ( Schmid, Weiss und Rushby, 2002 ) untersucht, wobei ein Unmöglichkeitsergebnis von ( Gray, 1978 ) umgangen wurde , das eine deterministische Lösung des Coordinated Attack-Problems unter Verbindungsfehlern zeigt.
quelle
Ich weiß nicht, ob @M. Alaggan sprach über diese Art von Fehlern, aber sie sehen auf jeden Fall ähnlich aus: vorübergehende Fehler.
In dem Modell der DVFS , wo man die Frequenz und Spannung ändern , um den Energieverbrauch zu reduzieren, und Zhu Aydin in diesem Papier (PDF) verwendet , um ein Fehlermodell für DVFS. Sie berücksichtigen vorübergehende Ausfälle, die beispielsweise durch Softwarefehler verursacht werden. Sie machen nur die Ausführung der aktuellen Aufgabe ungültig, und der von diesem Fehler betroffene Prozessor kann die ihm zugewiesene nachfolgende Aufgabe (falls vorhanden) wiederherstellen und ausführen.
Es tut mir leid, dies so lange nach dem ursprünglichen Beitrag zu posten, aber ich fand diese Frage, als ich an diesem Thema arbeitete :). Wenn Sie DVFS nicht studieren, sind diese Fehler immer noch vorhanden. Die Formeln sind wahrscheinlich immer noch gültig (oder anpassbar). Weitere Informationen zu vorübergehenden Ausfällen ohne DVFS finden Sie hier .
quelle
Bezüglich der bereits erwähnten Auslassungsversagermodelle schauen Sie sich NeigerToueg an , das verschiedene Arten von solchen berücksichtigt.
Das klingt nach einem Crash-Recovery-Modell. Mir ist kein Modell bekannt, bei dem Prozesse wahrscheinlich ein- oder ausgeschaltet sind. Es gibt auch Varianten, bei denen Prozesse für einige Zeit byzantinisch sind und sich dann erholen, wobei im Laufe der Zeit alle Prozesse byzantinisch sein können (meistens jedoch für die Taktsynchronisierung).
Beachten Sie, dass, wenn Sie mit "aus" meinen, dass ein Prozess nur keinen Fortschritt macht (er verliert seinen Status nicht und Nachrichten gehen nicht verloren, weil der Empfänger "aus" ist), das, was Sie sich ansehen, als asynchron bezeichnet wird System. Im Shared-Memory-Kontext könnte Ihre Frage dann in engem Zusammenhang mit diesem Aspnes- Papier stehen.
quelle
Es könnte andere Arten von Fehlern geben. Beispielsweise könnten einige Prozessoren (z. B. unter Broadcast- oder Multicast-Protokollen) überlastet werden und könnten nicht alle eingehenden Nachrichten verarbeiten. Dies führt dazu, dass der Prozessor für einige Prozessoren im verteilten System als offline angezeigt wird.
quelle