Dmesg voller E / A-Fehler, Smart OK, vier Festplatten betroffen

8

Ich arbeite an einem Remote-Server (Dell Poweredge), der neu installiert wurde. Es verfügt über vier Laufwerke (2 TB) und zwei SSDs (250 GB). Eine SSD enthält das Betriebssystem (RHEL7) und die vier mechanischen Festplatten werden schließlich eine Oracle-Datenbank enthalten.

Der Versuch, ein Software-RAID-Array zu erstellen, führte dazu, dass Festplatten ständig als fehlerhaft markiert wurden. Wenn Sie dmesg überprüfen, werden die folgenden Fehler ausgegeben:

[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current]
[127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed
[127491.719734] sd 0:0:4:0: [sde] CDB: Read(32)
[127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read
[127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08
[127497.440280] blk_update_request: I/O error, dev sdf, sector 106496
[127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read

Diese Fehler treten bei allen vier mechanischen Festplatten auf (sdc / sdd / sde / sdf). SMARTctl hat alle vier Festplatten bestanden, lange und kurze Tests. Ich verwende derzeit Badblocks (Schreibmodus-Test ~ 35 Stunden, wahrscheinlich noch 35).

Das Folgende sind die Fehler, die ich bei der Recherche vermutet / berücksichtigt habe

  • Festgestellte Festplatte - Scheint unwahrscheinlich, dass 4 "überholte" Festplatten DOA sind, nicht wahr?

  • Speichercontroller-Problem (schlechtes Kabel?) - Scheint, als würde es auch die SSDs betreffen?

    • Kernel-Problem: Die einzige Änderung am Standard-Kernel war das Hinzufügen von kmod-oracleasm. Ich sehe wirklich nicht ein, wie es diese Fehler verursachen würde, ASM ist überhaupt nicht eingerichtet.

Ein weiteres bemerkenswertes Ereignis war der Versuch, die Festplatten auf Null zu setzen (Teil der frühen Fehlerbehebung), wobei der Befehl $ dd verwendet wurde, wenn = / dev / zero von = / dev / sdX diese Fehler ergab.

dd: writing to ‘/dev/sdc’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s
dd: writing to ‘/dev/sdd’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s
dd: writing to ‘/dev/sde’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s
dd: writing to ‘/dev/sdf’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s

Wenn jemand hier einen Einblick geben könnte, was dies verursachen könnte, wäre ich dankbar. Ich bin geneigt, Occams Rasiermesser hier zu folgen und direkt zu den Festplatten zu gehen. Der einzige Zweifel ergibt sich aus der Unwahrscheinlichkeit, dass vier ausgefallene Festplatten sofort einsatzbereit sind.

Ich werde morgen zur physischen Inspektion zur Baustelle fahren und meine Einschätzung dieser Maschine den höheren Schichten melden. Wenn es etwas gibt, das ich physisch überprüfen sollte (über Kabel / Anschlüsse / Stromversorgung hinaus), lassen Sie es mich bitte wissen.

Vielen Dank.

Scu11y
quelle
Wenn Sie SMART "ok" sagen, meinen Sie damit nur die allgemeine Gesundheit? Sind einzelne Rohzähler für neu zugewiesene oder ausstehende Sektoren ungleich Null? Laufwerke erklären sich im ersten fehlerhaften Sektor nicht sofort für ausgefallen, obwohl dies nicht lesbar ist. Verwenden Sie smartctl -x /dev/sdaoder etwas. Es ist jedoch sehr verdächtig, dass es sich auf allen Festplatten um denselben LBA handelt.
Peter Cordes

Antworten:

14

Ihre ddTests zeigen, dass alle vier Festplatten an derselben LBA- Adresse ausfallen . Da es äußerst unwahrscheinlich ist, dass vier Festplatten genau an derselben Stelle ausfallen, vermute ich stark, dass dies auf Probleme mit dem Controller oder der Verkabelung zurückzuführen ist.

Shodanshok
quelle
1
Ohne weitere Tests ist es schwer zu sagen. Der erste Gedanke, den ich steuern / ersetzen würde, sind die Kabel, mit denen der Controller an der Rückwandplatine befestigt ist.
Shodanshok
4
Bei Kabeln mit hoher Datenrate, wie SATA / SAS-Kabeln mit 6/12 Gbs, geht es nicht nur um elektrische Kontinuität, sondern hauptsächlich um Signalklarheit und geringes Rauschen. Versuchen Sie, die Anschlüsse physisch zu entfernen und die Kabel neu zu verlegen. Wenn der Fehler weiterhin besteht, versuchen Sie, ihn zu ändern, und versuchen Sie schließlich einen anderen Controller.
Shodanshok
2
Es ist unwahrscheinlich, dass Same-LBA ein Verkabelungsproblem darstellt. Es sei denn, die Daten in diesem Sektor sind zufällig eine Bitsequenz im ungünstigsten Fall für ein gewisses Verwürfeln (um längere Läufe von Nulltakt gegen Selbsttaktung) oder ECC über die SATA / SAS-Verbindung zu verhindern. Ich bin nicht sicher, welche Codierung dieser Link verwendet. Controller ist jedoch plausibel; Dieselbe LBA auf jeder von mehreren Festplatten erfordert eine Erklärung des gemeinsamen Faktors.
Peter Cordes
3
@ djsmiley2k Es ist schwierig, dass alle vier ddEnden auf derselben zwischengespeicherten RAM-Adresse zwischengespeichert wurden. Darüber hinaus ist der DRAM von PERC ECC-geschützt, und obwohl auch der ECC-RAM ausfällt, ist dies relativ ungewöhnlich. Der Controller kann jedoch die Ursache der Probleme sein. Wenn das Wechseln der Kabel nicht hilft, sollte das OP versuchen, den Controller auszutauschen.
Shodanshok
2
Nun meine Freunde, du hattest recht. Kabel + Controller vertauscht und jetzt 600 GB in einen dd-Nullstellungsprozess und bisher keine Fehler. Sieht so aus, als ob jetzt alles richtig funktioniert. Nochmals vielen Dank für all das Wissen, das Sie geteilt haben. Ich bin dieser Community immer dankbar für Ihr Fachwissen und Ihre Bereitschaft, es zu teilen. :)
Scu11y