So ermitteln Sie die Ursache für den Ausfall von RAID-Arrays

1

Ich muss eine kürzliche Zunahme fehlerhafter RAID-1 (Mirror) -Arrays untersuchen, auf die wir in unserem installierten PC-Park (10K + PCs) stoßen.

Das Problem ist zweierlei: Ein Teil unserer Pilotphase begann mit Solid-State-Drives (SSDs). Wir haben ungefähr 80 PCs mit 2x Kingston V300 60 GB SSDs in RAID-1 herausgebracht. Bei diesen Installationen wird eine Ausfallrate von 10-15% über einen Zeitraum von max. 3 Monate, was natürlich nicht akzeptabel ist. Dies erfolgt auf einer PC-Plattform mit einem integrierten Intel ICH7R SATA RAID-Controller

Der zweite Teil ist, dass wir auch einen alarmierenden Anstieg der Ausfälle auf einer vorhandenen Plattform mit den neuesten Seagate Barracuda-Festplatten sehen. Diese Systeme basieren auf alten P4-Plattformen und verwenden den Promise FastTrak TX2300 SATA RAID-Controller. Wir verwenden diese Systeme seit über 7 Jahren mit denselben RAID-Controllern, aber erst mit den kürzlich verwendeten Seagate-Festplatten wird eine zunehmende Ausfallrate verzeichnet.

Nun zum Problem: Was ich in beiden Fällen habe, ist, dass ich nicht feststellen kann, was den Ausfall dieses RAID-Arrays verursacht hat. Für beide Fälle habe ich Beispiele für ausgefallene Systeme erhalten. Das Problem ist, dass bei der Untersuchung der Laufwerke anscheinend beide Laufwerke einwandfrei funktionieren, keine SMART-Fehler melden und alle Dateien lesbar sind (außer natürlich die Dateien, die nach dem Ausfall des Arrays erstellt wurden).

Wenn Sie die Festplatten löschen und das RAID-Array neu erstellen, funktioniert das System im Labor einwandfrei.

Gibt es Tools, mit denen ich diese Datenträger weiter analysieren kann? Ich könnte glauben, dass sie die meiste Zeit gut funktionieren, aber aufgrund einer kurzen Unterbrechung vom RAID-Controller als "schlecht" markiert werden. Es könnte auch der RAID-Controller sein, von dem ich annehme, dass er fehlerhaft ist. Wie teste ich das?

Beide genannten Systeme laufen unter Windows POSReady 2009 (im Grunde Windows XP)

Alex
quelle
1
Ist etwas in den Protokollen, wenn das Laufwerk vom Array gelöscht wird? Haben die Seagates einen anderen TLER?
Hennes
Im Windows-Ereignisprotokoll kann ich sehen, dass eine Festplatte nur zu einem bestimmten Zeitpunkt „verschwindet“. Das Protokoll besagt, dass die Festplatte <Seriennummer> entfernt wurde da unsere PC-Gehäuse verschlossen und gegen Fremdeintritt gesichert sind. Beim Anschließen der Festplatte im Labor funktioniert es einwandfrei.
Alex
Intel On-Board-RAID ist IMHO Mist. Ich habe es zweimal mit ähnlichen Ergebnissen verwendet, die Sie hier melden. Eines Tages werden Boot und Festplatten als nicht mehr Mitglied des Arrays markiert und mein RAID0 ist weg. Ich habe dann Bilder von den Festplatten mit aufgenommen ddund das Array hat wieder auf magische Weise funktioniert. Dasselbe geschah einige Monate später noch einmal. Wechselte danach zu einem geeigneten Controller und hatte nie mehr Probleme mit denselben Laufwerken. Andere werden Ihnen sagen, dass sie ICHR-RAIDs jahrelang ohne Probleme verwendet haben, aber ich würde es nie wieder verwenden.
Der Hochstapler