Habe ich gerade beim Hot Pluging eines Laufwerks versagt?

8

Ich habe einen kleinen Heimserver, der um ein Lian Li PC-Q25-Gehäuse herum gebaut ist und dessen SATA-Backplate sich selbst als Hot-Plug-fähig bewirbt. Das Motherboard ist Asus P8H77-I. Ich habe 4 SATA-Laufwerke an die Backplate angeschlossen - zwei Paare in RAID1-Arrays. Das System läuft unter Centos 6.3 x86_64.

Eines der Laufwerke ist ausgefallen, daher habe ich das empfohlene Verfahren ausgeführt: synchronisiert, aus dem Array entfernt, ordnungsgemäß heruntergefahren und herausgezogen. Keine Katastrophe hier, ich konnte das Laufwerk herunterfahren hören und es erschienen keine Fehler im dmesg-Protokoll.

Nun ging ich davon aus, dass nach dem SATA-Standard die versetzten Stifte im Laufwerk ein sicheres Einstecken ohne plötzlichen Stromstoß gewährleisten würden. Wenn ich das Laufwerk hineinschiebe, kann ich die anderen Laufwerke langsamer fahren und für einen kurzen Moment auf ihre Köpfe klicken.

Das Überprüfen des dmesg-Protokolls ergab Folgendes:

ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
ata3.00: exception Emask 0x10 SAct 0x3ff007ff SErr 0x4890000 action 0xe frozen
ata3.00: irq_stat 0x08400040, interface fatal error, connection status changed
ata3: SError: { PHYRdyChg 10B8B LinkSeq DevExch }
ata3.00: failed command: WRITE FPDMA QUEUED
ata3.00: cmd 61/80:00:3f:81:ca/00:00:00:00:00/40 tag 0 ncq 65536 out
         res 40/00:54:bf:81:ca/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }

(Die letzten ata3.00-Nachrichten werden ungefähr 20 Mal mit unterschiedlichen Nummern, aber demselben Text wiederholt.)

Die letzten Zeilen sind:

ata3.00: status: { DRDY }
ata3: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata1.00: configured for UDMA/133
ata1: EH complete
ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete
ata3.00: configured for UDMA/133
ata3: EH complete

Auch meine Logwatch meldete die folgenden Änderungen in den SMART-Daten:

/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
    Prefailure: Raw_Read_Error_Rate (1) changed to
          100,
    Prefailure: Reallocated_Sector_Ct (5) changed to
      200,
    Prefailure: Spin_Up_Time (3) changed to
      100,
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
    Usage: Calibration_Retry_Count (11) changed to
      100,
    Usage: Load_Retry_Count (223) changed to
      100,

Device: /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT], Self-Test Log error count increased from 0 to 1

Am folgenden Tag enthielt das SMART-Protokoll noch verdächtige Einträge:

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-0:0:0:0 [SAT] :
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-1:0:0:0 [SAT] :
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
    Usage: Multi_Zone_Error_Rate (200) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
    Usage: Throughput_Performance (2) changed to
      56,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-4:0:0:0 [SAT] :
    Prefailure: Raw_Read_Error_Rate (1) changed to
      116, 117,
    Usage: ECC_Uncorr_Error_Count (195) changed to
      116, 117,

Anscheinend hat das Sata-Backend das Laufwerk sofort brutal eingeschaltet, was möglicherweise dazu führte, dass die Spannung für einen Moment abfiel.

Mein Fehler war vielleicht, alle vier Laufwerke an dieselbe Netzteilschiene anzuschließen und zu erwarten, dass das Netzteil (wenn auch ein 800-W-Seasonic mit guten Spezifikationen) den plötzlichen Stromverbrauch bewältigt.

Die SATA-Rückplatte verfügt über zwei Molex-Anschlüsse auf der Rückseite für die Stromversorgung. Ich werde sie an separate Netzteilschienen anschließen, um eine gleichmäßigere Ausgangsleistung zu gewährleisten.

Gibt es eine Möglichkeit, zu verhindern, dass sich das Laufwerk sofort dreht, wenn ich es wieder in das Laufwerkspaket stecke?

Habe ich möglicherweise nur die Laufwerke beschädigt (können Sie diesen Protokollmeldungen entnehmen)?

Vielen Dank!

Remolod Domelor
quelle
1
Power ist ein binärer Status - ein oder aus. Ich glaube nicht, dass Hot Swap auf eine Art "langsames" Einschalten schließen lässt.
uSlackr

Antworten:

1

Eine Festplatte hat eine Leistung von ca. 11 Watt. Wenn Ihr Netzteil also 800 W hat, sollten Sie kein Problem haben.

Einige große Festplatten können die Festplatte nacheinander einschalten, um ein potenzielles elektrisches Problem zu vermeiden. Es liegt jedoch an der Steuerung.

Haben Sie versucht, den Server neu zu starten (Kaltstart) ist dann alles gut? Wie Sie sagten, haben Sie gehört, wie die anderen sich drehen und auf den Kopf klicken. Das ist natürlich nicht normal. Möglicherweise ist die Hotplug-Rückwandplatine schlecht hergestellt und während des Hotplugs ist ein Kurzschluss aufgetreten.

Yann Sagon
quelle