APEI Generic Hardware Error

9

In der letzten Woche wurde mein Server (mit Debian Jessie) zweimal neu gestartet. Im Syslog sehe ich dies vor jedem Neustart und an keiner anderen Stelle:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Ein bisschen googeln lässt mich glauben, dass dies damit zu tun hat, dass mein ECC-RAM einen Fehler erkennt und behebt. Ist das richtig? Warum wird das System neu gestartet, wenn es wiederhergestellt wird? Ich möchte verhindern, dass das System neu gestartet wird, wenn dies überhaupt möglich ist.

Moujik
quelle

Antworten:

9

Es sieht so aus, als ob Ihr RAM ausfällt oder Fehler vorliegen, die korrigiert werden. Je nach Schweregrad wirken sich diese Fehler auf die Funktionsfähigkeit aus und müssen anschließend neu gestartet werden.

Nach dem Aussehen dieses Threads ist das Nachrichtenbit am Ende, dass die Länge des Fehlerabschnitts zu klein ist, wahrscheinlich der Schuldige.

Auszug - [PATCH 1/1] efi: cper: Unterstützt unterschiedliche Länge des Fehlerabschnitts

Einige Felder werden möglicherweise dem Fehlerabschnitt in der neueren UEFI-Spezifikation hinzugefügt. Beispielsweise werden die Felder "Reserviert", "Rangnummer", "Kartenhandle" und "Modulhandle" zum Abschnitt "Speicherfehler" hinzugefügt, der ab UEFI-Spezifikation 2.3 gestartet wurde. Leider wird die folgende Warnmeldung angezeigt, wenn der speicherkorrigierte Fehler erkannt wird und das Feld 'revision' in struct acpi_generic_data kleiner als 0x203 ist (UEFI-Spezifikation 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Dieses Verhalten führt dazu, dass dieser korrigierte Fehler nicht korrekt angezeigt werden kann. Um das Problem zu beheben, unterstützt dieser Patch unterschiedliche Längen des Fehlerabschnitts für unterschiedliche UEFI-Spezifikationsversionen.

Dieser Patch verwendet eine vordefinierte Struktur, um die duplizierten Codes in der Funktion cper_estatus_print_section zu bereinigen.

Bei Anwendung dieses Patches kann der speicherkorrigierte Fehler nach dem Einfügen des Fehlers korrekt angezeigt werden.

Getestet auf v3.14-rc5 mit Grantley-Plattform und Intel RAStool.

Es scheint also, dass ein Patch für diesen bestimmten Fehler in Arbeit ist und möglicherweise in einer neueren Version des Kernels verfügbar ist.

slm
quelle
3

Zu Ihrer Information, ich schien ein sehr ähnliches Problem zu haben.

Wie sich herausstellte, nahm die Lösung den Speicher heraus und setzte ihn erneut ein, und alles war wieder normal.

Darren Harrison
quelle