Ich befinde mich in einer Umgebung mit vielen Supermicro- Servern, die mit Adaptec- und LSI MegaRAID- Hardware-RAID-Controllern ausgestattet sind. Diese Controller enthalten batteriegepufferte Cache-Module, um die Schreibleistung zu steigern und die Datenübertragung zu schützen.
Ein häufiges Supportproblem ist der Ausfall der RAID-Controller-Batterie. Dies verschiebt das Array vom Rückschreibemodus in den Durchschreibemodus . Es gibt eindeutig negative Auswirkungen auf die Leistung, da das System mit verringerter Schreibgeschwindigkeit ausgeführt wird. Dies bleibt so lange bestehen, bis ein Ausfallzeitfenster eingerichtet werden kann, in dem das System heruntergefahren und die Batterie ersetzt wird.
Dies ist eine sehr routinemäßige Operation für uns; Fast wöchentlich auf mehreren tausend physischen Servern ... Wir haben sogar Ladestationen eingerichtet, um Ersatzbatterien vorzubereiten, die ohne Ladezyklus ausgetauscht werden können.
Vielleicht habe ich eine lange Geschichte mit HP ProLiant Servern und Smart Array RAID Controllern , aber HP Systeme hatten normalerweise eine Batterielebensdauer von 4-6 Jahren. Sie haben schließlich die Verwendung von RAID-Batterien um 2009 beseitigt. Sie wurden durch Speichermodule mit Superkondensator (flash-backed write cache oder FBWC) ersetzt und erfordern keinen Austausch, keine Entsorgung oder einen längeren anfänglichen Ladezyklus.
Da ich die Adaptec- und LSI-Controller-Batteriefehler sehe, die manchmal auf Systemen auftreten, die weniger als 12 Monate in Betrieb waren, frage ich mich, ob dies in anderen Umgebungen üblich ist.
Wie gehen andere große Serverumgebungen damit um, wenn dies häufig vorkommt?
- Irgendwelche Tipps oder Tricks zum Umgang mit RAID-Batteriewechsel?
- Gibt es Konfigurationsparameter, die helfen können?
- Wie störend ist dies für Vorgänge in Ihrer Umgebung?
- Könnten schlechte Gehäusekühlung und -temperatur ein Faktor sein?
- Tun wir etwas falsch?
- Dell PERC-Controller werden von LSI hergestellt. Erleben Dell-Umgebungen die gleichen kurzen Akkulaufzeiten?
In der LSI-Produktliteratur wird eine Batterie der neuen Generation beschrieben, die länger als 1 Jahr im Einsatz sein kann.
HP ProLiant DL585 G2 Server mit einer Betriebszeit von mehr als 1000 Tagen und einem glücklichen RAID-Akku ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
quelle
Antworten:
Ich vermute, dass Ihre Supermicros auf die eine oder andere Weise kaputt sind - möglicherweise sind die Akkus überhitzt. Die neuesten LSIs haben die Temperatur über MegaCLI gemeldet. Sie möchten diesen Wert möglicherweise auf Servern überwachen, die ausgetauscht werden müssen.
Ich habe einige Dell- und Fujitsu-Systeme mit LSI-BBU-Controllern gesehen, von denen keiner einen jährlichen Batteriewechsel durchführte (außer Sie haben den Akku durch Tiefentladung versaut). Die typische Lebensdauer liegt bei 3 bis 5 Jahren.
quelle
Die durchschnittliche Batterielebensdauer sollte 3-5 Jahre betragen. Und vergessen Sie nicht, dass die flashbasierte FBWC ebenfalls fehlschlägt. Ich weiß nicht warum / wie, aber wir haben sie regelmäßig auf unseren HP Servern ausgetauscht. Ich sollte länger als der Akku halten, aber ich habe keine Statistiken von unseren einzelnen Servern.
Die Standardmethode, um die Auswirkungen von Batteriefehlern und Batterielernen zu verhindern, besteht darin, mehrere Batterien zu haben. So haben es HP Speicher (wie HP EVA). Sie haben 2 Hot-Plug-Batterien, und während eine Batterie schwach ist oder ausgetauscht wird, arbeitet die Steuerung mit der anderen. Ich bin nicht sicher, ob es möglich ist, mehrere Batterien an SmartArray anzuschließen, aber die
hpacucli
diag
Ausgabe schlägt vor, dass dies unterstützt werden sollte:quelle
Meine Erfahrung mit IBM-Versionen der LSI-Plattformen über ein paar hundert Installationen ist, dass der durchschnittliche Akku kaum zwei Jahre leistet und Supercap nicht besser ist. Einige dieser Probleme können mit einem Firmware-Update behoben werden, aber LSI hat es einfach nicht richtig. Ich hatte in den ersten 2 Jahren etwa 75% Supercap-Fehler.
quelle