Fehlerhäufigkeit / Lebensdauer des Hardware-RAID-Controller-Cache-Akkus?

14

Ich befinde mich in einer Umgebung mit vielen Supermicro- Servern, die mit Adaptec- und LSI MegaRAID- Hardware-RAID-Controllern ausgestattet sind. Diese Controller enthalten batteriegepufferte Cache-Module, um die Schreibleistung zu steigern und die Datenübertragung zu schützen.

Ein häufiges Supportproblem ist der Ausfall der RAID-Controller-Batterie. Dies verschiebt das Array vom Rückschreibemodus in den Durchschreibemodus . Es gibt eindeutig negative Auswirkungen auf die Leistung, da das System mit verringerter Schreibgeschwindigkeit ausgeführt wird. Dies bleibt so lange bestehen, bis ein Ausfallzeitfenster eingerichtet werden kann, in dem das System heruntergefahren und die Batterie ersetzt wird.

Dies ist eine sehr routinemäßige Operation für uns; Fast wöchentlich auf mehreren tausend physischen Servern ... Wir haben sogar Ladestationen eingerichtet, um Ersatzbatterien vorzubereiten, die ohne Ladezyklus ausgetauscht werden können.

Vielleicht habe ich eine lange Geschichte mit HP ProLiant Servern und Smart Array RAID Controllern , aber HP Systeme hatten normalerweise eine Batterielebensdauer von 4-6 Jahren. Sie haben schließlich die Verwendung von RAID-Batterien um 2009 beseitigt. Sie wurden durch Speichermodule mit Superkondensator (flash-backed write cache oder FBWC) ersetzt und erfordern keinen Austausch, keine Entsorgung oder einen längeren anfänglichen Ladezyklus.

Da ich die Adaptec- und LSI-Controller-Batteriefehler sehe, die manchmal auf Systemen auftreten, die weniger als 12 Monate in Betrieb waren, frage ich mich, ob dies in anderen Umgebungen üblich ist.

Wie gehen andere große Serverumgebungen damit um, wenn dies häufig vorkommt?

  • Irgendwelche Tipps oder Tricks zum Umgang mit RAID-Batteriewechsel?
  • Gibt es Konfigurationsparameter, die helfen können?
  • Wie störend ist dies für Vorgänge in Ihrer Umgebung?
  • Könnten schlechte Gehäusekühlung und -temperatur ein Faktor sein?
  • Tun wir etwas falsch?
  • Dell PERC-Controller werden von LSI hergestellt. Erleben Dell-Umgebungen die gleichen kurzen Akkulaufzeiten?

In der LSI-Produktliteratur wird eine Batterie der neuen Generation beschrieben, die länger als 1 Jahr im Einsatz sein kann. Bildbeschreibung hier eingeben

HP ProLiant DL585 G2 Server mit einer Betriebszeit von mehr als 1000 Tagen und einem glücklichen RAID-Akku ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
quelle
2
Nur ein Tipp: Die letzte Generation von Adaptec-Controllern verwendet auch Supercaps / Flash anstelle von Batterien.
Sven
Oh, ich bin mir dessen bewusst , dass alle Hersteller haben Supercap-basierte Lösungen jetzt , aber die vorhandene Installation Fußabdruck gegeben, es ist schwer , eine breite Veränderung in der gesamten Infrastruktur zu machen.
ewwhite
2
Ich habe dies noch nie getan (wahrscheinlich, weil es sich nach einer schlechten Idee anhört und ich das Problem nicht so häufig hatte wie Sie), aber Sie könnten versuchen, eine RAID-Batterie auf einem Testserver zu ersetzen, während dieser eingeschaltet ist. Schieben Sie ihn heraus, nehmen Sie die Abdeckung ab, trennen Sie den defekten Akku und schließen Sie den guten an. Setzen Sie ihn dann wieder in das Rack ein. Wenn alles in Ordnung ist, müssen Sie den Akku ohne Ausfallzeiten austauschen.
August,
2
@August Ähm, wie riskant Verfahren gehen, klingt dies ziemlich hoch auf der Liste "OMG, wo meine Daten hingegangen sind".
Dan
2
Ja, das stimmt ... Ich stimme zu, es klingt wie eine schreckliche Idee, aber angesichts der Situation und der Voraussetzung, dass es keine Ausfallzeiten gibt, ist es möglicherweise einen Versuch wert, auf einem Testserver (oder dreißig Testservern ...) zu prüfen, ob dies der Fall ist möglich. Was ist eine andere Option neben der Wiederherstellung der Infrastruktur, um nicht auf einzelne RAID-Batterien in Tausenden von Servern angewiesen zu sein?
August,

Antworten:

9

Ich vermute, dass Ihre Supermicros auf die eine oder andere Weise kaputt sind - möglicherweise sind die Akkus überhitzt. Die neuesten LSIs haben die Temperatur über MegaCLI gemeldet. Sie möchten diesen Wert möglicherweise auf Servern überwachen, die ausgetauscht werden müssen.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Ich habe einige Dell- und Fujitsu-Systeme mit LSI-BBU-Controllern gesehen, von denen keiner einen jährlichen Batteriewechsel durchführte (außer Sie haben den Akku durch Tiefentladung versaut). Die typische Lebensdauer liegt bei 3 bis 5 Jahren.

das-wabbit
quelle
4
Ich würde hinzufügen, dass ich es nicht versuchen würde, es sei denn, das System autorisiert AUSDRÜCKLICH den Austausch der RAID-BBU im laufenden Betrieb . Ich habe noch nie gesehen, dass ein System einen jährlichen Austausch der RAID-Cache-Batterie erfordert. 3-5 Jahre ist eine typische Lebensdauer.
Voretaq7
Ich denke du hast es verstanden!
ewwhite
1

Die durchschnittliche Batterielebensdauer sollte 3-5 Jahre betragen. Und vergessen Sie nicht, dass die flashbasierte FBWC ebenfalls fehlschlägt. Ich weiß nicht warum / wie, aber wir haben sie regelmäßig auf unseren HP Servern ausgetauscht. Ich sollte länger als der Akku halten, aber ich habe keine Statistiken von unseren einzelnen Servern.

Die Standardmethode, um die Auswirkungen von Batteriefehlern und Batterielernen zu verhindern, besteht darin, mehrere Batterien zu haben. So haben es HP Speicher (wie HP EVA). Sie haben 2 Hot-Plug-Batterien, und während eine Batterie schwach ist oder ausgetauscht wird, arbeitet die Steuerung mit der anderen. Ich bin nicht sicher, ob es möglich ist, mehrere Batterien an SmartArray anzuschließen, aber die hpacucli diagAusgabe schlägt vor, dass dies unterstützt werden sollte:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
quelle
1

Meine Erfahrung mit IBM-Versionen der LSI-Plattformen über ein paar hundert Installationen ist, dass der durchschnittliche Akku kaum zwei Jahre leistet und Supercap nicht besser ist. Einige dieser Probleme können mit einem Firmware-Update behoben werden, aber LSI hat es einfach nicht richtig. Ich hatte in den ersten 2 Jahren etwa 75% Supercap-Fehler.

Kennzeichen
quelle