Ich arbeite an einem Remote-Server (Dell Poweredge), der neu installiert wurde. Es verfügt über vier Laufwerke (2 TB) und zwei SSDs (250 GB). Eine SSD enthält das Betriebssystem (RHEL7) und die vier mechanischen Festplatten werden schließlich eine Oracle-Datenbank enthalten.
Der Versuch, ein Software-RAID-Array zu erstellen, führte dazu, dass Festplatten ständig als fehlerhaft markiert wurden. Wenn Sie dmesg überprüfen, werden die folgenden Fehler ausgegeben:
[127491.711407] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719699] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127491.719717] sd 0:0:4:0: [sde] Sense Key : Aborted Command [current]
[127491.719726] sd 0:0:4:0: [sde] Add. Sense: Logical block guard check failed
[127491.719734] sd 0:0:4:0: [sde] CDB: Read(32)
[127491.719742] sd 0:0:4:0: [sde] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127491.719750] sd 0:0:4:0: [sde] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127491.719757] blk_update_request: I/O error, dev sde, sector 3907026080
[127491.719764] Buffer I/O error on dev sde, logical block 488378260, async page read
[127497.440222] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.440240] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.440249] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.440258] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.440266] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.440273] sd 0:0:5:0: [sdf] CDB[10]: 00 01 a0 00 00 01 a0 00 00 00 00 00 00 00 00 08
[127497.440280] blk_update_request: I/O error, dev sdf, sector 106496
[127497.901432] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.901449] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.901458] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.901467] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.901475] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.901482] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.901489] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911003] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[127497.911019] sd 0:0:5:0: [sdf] Sense Key : Aborted Command [current]
[127497.911029] sd 0:0:5:0: [sdf] Add. Sense: Logical block guard check failed
[127497.911037] sd 0:0:5:0: [sdf] CDB: Read(32)
[127497.911045] sd 0:0:5:0: [sdf] CDB[00]: 7f 00 00 00 00 00 00 18 00 09 20 00 00 00 00 00
[127497.911052] sd 0:0:5:0: [sdf] CDB[10]: e8 e0 7c a0 e8 e0 7c a0 00 00 00 00 00 00 00 08
[127497.911059] blk_update_request: I/O error, dev sdf, sector 3907026080
[127497.911067] Buffer I/O error on dev sdf, logical block 488378260, async page read
Diese Fehler treten bei allen vier mechanischen Festplatten auf (sdc / sdd / sde / sdf). SMARTctl hat alle vier Festplatten bestanden, lange und kurze Tests. Ich verwende derzeit Badblocks (Schreibmodus-Test ~ 35 Stunden, wahrscheinlich noch 35).
Das Folgende sind die Fehler, die ich bei der Recherche vermutet / berücksichtigt habe
Festgestellte Festplatte - Scheint unwahrscheinlich, dass 4 "überholte" Festplatten DOA sind, nicht wahr?
Speichercontroller-Problem (schlechtes Kabel?) - Scheint, als würde es auch die SSDs betreffen?
- Kernel-Problem: Die einzige Änderung am Standard-Kernel war das Hinzufügen von kmod-oracleasm. Ich sehe wirklich nicht ein, wie es diese Fehler verursachen würde, ASM ist überhaupt nicht eingerichtet.
Ein weiteres bemerkenswertes Ereignis war der Versuch, die Festplatten auf Null zu setzen (Teil der frühen Fehlerbehebung), wobei der Befehl $ dd verwendet wurde, wenn = / dev / zero von = / dev / sdX diese Fehler ergab.
dd: writing to ‘/dev/sdc’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70583 s, 32.0 MB/s
dd: writing to ‘/dev/sdd’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.70417 s, 32.0 MB/s
dd: writing to ‘/dev/sde’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71813 s, 31.7 MB/s
dd: writing to ‘/dev/sdf’: Input/output error
106497+0 records in
106496+0 records out
54525952 bytes (55 MB) copied, 1.71157 s, 31.9 MB/s
Wenn jemand hier einen Einblick geben könnte, was dies verursachen könnte, wäre ich dankbar. Ich bin geneigt, Occams Rasiermesser hier zu folgen und direkt zu den Festplatten zu gehen. Der einzige Zweifel ergibt sich aus der Unwahrscheinlichkeit, dass vier ausgefallene Festplatten sofort einsatzbereit sind.
Ich werde morgen zur physischen Inspektion zur Baustelle fahren und meine Einschätzung dieser Maschine den höheren Schichten melden. Wenn es etwas gibt, das ich physisch überprüfen sollte (über Kabel / Anschlüsse / Stromversorgung hinaus), lassen Sie es mich bitte wissen.
Vielen Dank.
quelle
smartctl -x /dev/sda
oder etwas. Es ist jedoch sehr verdächtig, dass es sich auf allen Festplatten um denselben LBA handelt.Antworten:
Ihre
dd
Tests zeigen, dass alle vier Festplatten an derselben LBA- Adresse ausfallen . Da es äußerst unwahrscheinlich ist, dass vier Festplatten genau an derselben Stelle ausfallen, vermute ich stark, dass dies auf Probleme mit dem Controller oder der Verkabelung zurückzuführen ist.quelle
dd
Enden auf derselben zwischengespeicherten RAM-Adresse zwischengespeichert wurden. Darüber hinaus ist der DRAM von PERC ECC-geschützt, und obwohl auch der ECC-RAM ausfällt, ist dies relativ ungewöhnlich. Der Controller kann jedoch die Ursache der Probleme sein. Wenn das Wechseln der Kabel nicht hilft, sollte das OP versuchen, den Controller auszutauschen.