Festplatten fallen aus unbekannten Gründen offline

11

Ich habe 7 Systeme, auf denen das unten stehende Setup ausgeführt wird. Hin und wieder fällt eine andere Festplatte offline, aber bei näherer Betrachtung ist die Festplatte gut und nicht fehlerhaft und funktioniert mindestens ein weiteres Jahr lang einwandfrei. Da dies auf allen 7 Systemen geschieht, ist es unwahrscheinlich, dass ein einzelnes Teil aktiv ist (z. B. Kabel), sondern dass die Kombination einiger Teile leicht inkompatibel ist.

Das Problem besteht darin, den genauen Punkt zu lokalisieren, an dem die Inkompatibilität vorliegt.

(Wenn Sie stattdessen eine Problemumgehung haben, bei der Sie die Festplatte über die Befehlszeile virtuell neu einsetzen können, können Sie möglicherweise /server/523315/re-activate-device beantworten -das-gilt-als-tot ).

Serverhardware: Dell 1950, Dell R815, Dell R715.

Betriebssystem:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Regler:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-Expander Supermicro 4U SAS / SATA-Expander-Rückwandplatine mit einem einzigen LSI SAS2X36-Expander-Chip:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Festplatten:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Festplatten in einem System:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
quelle
9
+1 für den Beginn der wichtigen Fragen :)
Sven
Ein schlechtes Kabel ohne Abschirmung kann Probleme mit Prüfsummen verursachen. [wodurch Lese- und Schreibprobleme verursacht werden]. Haben Sie versucht, die Kabel auszutauschen?
Mönch
Kabel wurden durch bekannte Waren ersetzt. Außerdem würde ich erwarten, dass Linux den Befehl nach dem Zurücksetzen des scsi-Busses erneut versucht.
Ole Tange
2
Nach dem, was ich bisher herausgefunden habe, weisen die Nachrichten darauf hin, dass es Konnektivitätsprobleme gibt - keine SMART-Warnungen. Vielleicht kann jemand anderes mit umfassender BiY-Erfahrung helfen. Ich weiß nur, dass sie sich in großen Setups von S-ATA-Festplatten fernhalten, da im Vergleich zu SAS keine Befehle / Warteschlangen vorhanden sind. Ich werde ein paar bitten, sich das anzuschauen.
Pause
@pauska Kannst du (mit Links?) näher auf das eingehen, was du ausgegraben hast?
Ole Tange

Antworten:

1

Hier fehlen Informationen. Sie schlagen vor, dass Sie in diesem Speicher-Setup 24-45 Festplatten pro Server haben.

  • Welche spezifischen Controller verwenden Sie?
  • Aufgrund der Anzahl der Festplatten befinden sich möglicherweise einige Laufwerke in einem externen Gehäuse. Bitte geben Sie die Marke / das Modell des verwendeten externen Laufwerksgehäuses an.
  • Welche spezifischen Antriebsmodelle verwenden Sie? Sind alle Festplatten Desktop-Laufwerke?
  • Welches Dateisystem verwenden Sie?
  • Beschreiben des Festplatten- und RAID-Layouts.
  • War das immer ein Problem oder hat es sich im Laufe der Zeit entwickelt?
  • ist Super überall in diesem Setup beteiligt?

Abhängig vom Gehäuse-Setup treten möglicherweise SATA-Timeouts oder Busfehler auf. Dies kann sich negativ auf alle an die Steuerung angeschlossenen Laufwerke auswirken .

Ein weiteres Problem könnte eine schlechte Aushandlung von SAS / SATA-Verbindungen sein. Ich habe dies sicherlich bei einigen SAS-Expandern erlebt, wenn 1,5-Gbit / s- und 6,0-Gbit / s-Laufwerke auf derselben Karte gemischt sind.

Bitte geben Sie weitere Informationen an.

ewwhite
quelle
Ihre Frage zu Supermicro interessiert mich sehr. Können Sie das näher erläutern?
Halfgaar
@Halfgaar Könnten Sie das Feedback zu den anderen Fragen geben, die ich gestellt habe?
ewwhite
Der ursprüngliche Beitrag gehört nicht mir. Ich bin nur neugierig auf diese Aussage.
Halfgaar
1
@Halfgaar Hoppla ... Nun, ich habe festgestellt, dass Supermicro SAS erweitert / Backplanes und einige der JBOD-Gehäuse sich unter vielen Umständen nicht vorhersehbar verhalten. Der Hinweis in meiner Antwort zum Herunterschalten der SAS / SATA-Geschwindigkeit und zur Verhandlung von Verbindungen ist etwas, das ich nur bei bestimmten Überarbeitungen von Supermicro-Geräten erlebt habe. Ich kann ihre JBODs wegen Wonky-Verhaltens auch nicht mehr für ZFS verwenden.
ewwhite