Haben RAID-Controller häufig Probleme mit der Kompatibilität von SATA-Laufwerken?

22

Wir haben mit dem RAID-Controller in unserem Datenbankserver, einem Lenovo ThinkServer RD120, zu kämpfen. Es ist eine Adaptec- Marke , die Lenovo / IBM als ServeRAID 8k bezeichnet .

Wir haben diesen ServeRAID 8k auf den neuesten Stand gebracht:

  • RAID-BIOS-Version
  • RAID-Backplane-BIOS-Version
  • Windows Server 2008-Treiber

Dieser RAID-Controller hat bereits in den letzten vier Monaten mehrere wichtige BIOS-Updates erhalten, und die Änderungshistorie ist nur ... gut, beängstigend.

Wir haben sowohl Rückschreib- als auch Durchschreibstrategien für die logischen RAID-Laufwerke ausprobiert. Bei hoher Festplattenaktivität treten immer noch zeitweise E / A-Fehler auf. Sie sind nicht häufig, aber schwerwiegend, da sie zu E / A-Zeitüberschreitungen in SQL Server 2008 und manchmal zum Ausfall von SQL-Verbindungspools führen.

Wir waren am Ende unseres Seils und haben dieses Problem behoben. Abgesehen von Hardcore-Dingen wie dem Ersetzen des gesamten Servers oder dem Ersetzen der RAID-Hardware wurden wir verzweifelt.

Als ich den Server zum ersten Mal bekam, hatte ich ein Problem, bei dem Laufwerksschacht Nr. 6 nicht erkannt wurde. Seltsamerweise hat das Auswechseln von Festplatten zu einer anderen Marke dieses Problem behoben und das RAID-BIOS (zum ersten Mal) dauerhaft aktualisiert, sodass ich das ursprüngliche "inkompatible" Laufwerk in Position 6 verwenden konnte Vermutlich waren die von mir ausgewählten SATA-Festplatten von Western Digital irgendwie nicht mit dem ServeRAID 8k-Controller kompatibel.

Der Kauf von 6 neuen Festplatten war eine der billigeren Optionen auf dem Tisch. Daher entschied ich mich für 6 Hitachi-Festplatten (auch bekannt als IBM, auch bekannt als Lenovo). Dabei ging man davon aus , dass ein IBM / Lenovo-RAID-Controller mit größerer Wahrscheinlichkeit mit den typischen Laufwerken funktioniert verkauft mit.

Anscheinend hat sich diese Vermutung ausgezahlt - wir haben drei unserer schwersten Lasttage (Montag, Dienstag, Mittwoch) ohne einen einzigen E / A-Fehler jeglicher Art hinter uns gebracht. Zuvor hatten wir in diesem Zeitraum regelmäßig mindestens ein E / A-Ereignis. Es sieht sicher so aus, als hätte der Wechsel der Festplattenmarken unsere zeitweise auftretenden RAID-E / A-Probleme behoben!

Ich verstehe zwar, dass IBM / Lenovo ihren RAID-Controller wahrscheinlich ausschließlich mit Festplatten ihrer eigenen Marke testet, bin aber beunruhigt, dass ein RAID-Controller mit Festplatten bestimmter Marken solch subtile E / A-Probleme hätte.

Meine Frage ist also, ist diese Art der SATA-Laufwerksinkompatibilität mit RAID-Controllern üblich? Gibt es einige Marken von Laufwerken, die besser funktionieren als andere oder für bestimmte RAID-Controller "validiert" sind? Ich war davon ausgegangen, dass alle gängigen SATA-Festplatten gleich sind und in jedem RAID-Controller (von ausreichender Qualität) einigermaßen gut funktionieren.

Jeff Atwood
quelle

Antworten:

6

Ja , ich habe dies mit Low-End-Karten und fehlerhaften Treibern erlebt. Allerdings nicht , nicht auf einem up-to-date Adaptec rebranded Karte. Wow kann ich nur sagen. Eine Sache zu beachten, vielleicht ist es eher ein Fehler mit dem Laufwerk als der RAID-Controller.

Ich habe keine gute Antwort, aber da Sie anscheinend die meisten Optionen außer dem Austauschen der Karte ausgeschöpft haben (und das Austauschen der Laufwerke den Trick vollbracht hat), finden Sie hier einige Ideen, die Sie bei der Fehlerbehebung berücksichtigen können:

  • Die WD-Laufwerke waren RE-Laufwerke (RAID Edition), richtig? Die befristete Fehlerbehebung ist wichtig. Wenn Sie dies nicht haben und das Laufwerk versucht, den Sektor wiederherzustellen, wird das Laufwerk eine lange Pause einlegen. Wenn der RAID-Controller geduldig ist und das Laufwerk nicht fallen lässt, haben Sie ein großes Problem.

  • Überprüfen Sie die SMART-Daten auf den Laufwerken, die Sie entfernt haben, und prüfen Sie, ob interessante Informationen vorliegen.

Ein weiterer Kommentar zur Wichtigkeit der TLER-Funktion (Time Limited Error Recovery), die vom NAS / RAID-Anbieter unterstützt wird:

Wie bereits erwähnt, empfehlen wir Kunden immer, Laufwerke auf Unternehmensebene zu verwenden, wenn sie die Laufwerke in RAID-Einstellungen verwenden. Laufwerke auf Unternehmensebene haben eine konsistentere Reaktionszeit, sodass das RAID sicherer wird.

TorgoGuy
quelle
Keine Ahnung, aber sie hatten "RAID-spezifische, zeitlich begrenzte Fehlerbehebung", wie auf der Registerkarte " Specs
Jeff Atwood
Ja, du hast die richtigen. (Beachten Sie das im Titel aufgeführte RE2.) Das schießt diese Theorie ab! Natürlich würde ich immer noch die SMART-Daten überprüfen, nur für den Fall (ja, ich weiß, es ist selten nützlich) ...
TorgoGuy
Es stellte sich heraus, dass die Laufwerke doch irgendwie schuppig waren. Brent Ozar erbte unsere alten Laufwerke und musste mindestens einen von ihnen wegen Verrücktheiten RMA ..
Jeff Atwood
Außerdem gibt es eine interessante Diskussion über die TLER-Funktion, die einige Hersteller als spezielle Software betrachten, die sie umdrehen, um die Laufwerke auf magische Weise "unternehmungslustig" zu machen. fatwallet.com/forums/expired-deals/993547
Jeff Atwood
13

Selbst bei nicht-RAID-fähigen, einfachen Desktop-Festplatten kann der Kauf von Festplatten beim Anbieter (zum erwarteten lächerlichen Preisaufschlag) oft einen Unterschied bewirken. Zum Beispiel achtet Apple darauf, dass nur Laufwerke ausgeliefert werden, die tatsächlich die F_FULLSYNC fcntl()Kennzeichnung von Mac OS X erfüllen. Dies trägt wesentlich dazu bei , dass Dinge wie Time Machine- Backups zuverlässig funktionieren.

Auch dies ist eine reine Vanilla- Desktop- Nutzung ohne RAID. Alles, was komplexer ist und Sie definitiv kaufen möchten, wenn nicht die überteuerten Laufwerke des Anbieters, dann sind zumindest Laufwerksmodelle, von denen Sie sicher wissen, dass sie auf der "genehmigten" Liste des Anbieters stehen.

Also, um Ihre Frage zu beantworten, ist es üblich? Ich würde sagen, ja, häufiger als Sie vielleicht denken, auch außerhalb des Unternehmensbereichs.

John Siracusa
quelle
Ich würde definitiv die Laufwerksmodelle bekommen, die der Verkäufer normalerweise verkauft, wenn Sie ein DIY-Laufwerks-Upgrade durchführen, um die Kosten zu senken. Ich würde auch empfehlen, keine Laufwerke (oder Controller) zu kaufen, mit denen das System gerade erst ausgeliefert wurde, damit Sie nicht derjenige sind, der die Fehler findet! SATA scheint in dieser Hinsicht aus irgendeinem Grund flockiger als SAS zu sein ...
Christopher Edwards
4

Ich denke nicht, dass es an sich üblich ist. Sobald Sie jedoch mit der Verwendung von Enterprise-Speichercontrollern (SANs oder eigenständigen RAID-Controllern) beginnen, sollten Sie im Allgemeinen deren Kompatibilitätsliste genauestens befolgen.

Möglicherweise können Sie durch den Kauf einer günstigen Auswahl an Festplatten einiges an Preisersparnis erzielen, aber das ist wahrscheinlich einer der letzten Bereiche, in denen ich Geld sparen möchte - angesichts der Bedeutung von Daten in den meisten Szenarien.

Mit anderen Worten, eine explizite Inkompatibilität ist sehr selten, eine explizite Einhaltung der Kompatibilität ist jedoch empfehlenswert.

Mark S. Rasmussen
quelle
4

Ich würde nicht davon träumen, SATA-Festplatten für einen Server zu verwenden - keine hat den erwarteten Arbeitszyklus eines Laufwerks in Serverqualität und sie verfügen nicht über den umfangreichen Befehlssatz, den SCSI / SAS zur Überwachung der Laufwerksleistung und des Systemzustands hat. Lenovo Server sind billig und großartig, wenn Sie viele Server haben, von denen keiner wirklich so wichtig ist. Es gibt jedoch einen Grund, warum die HP Server der 300er-Serie 40% des Marktes ausmachen - sie funktionieren. Insbesondere die SmartArray-Festplattencontroller sind in Bezug auf Zuverlässigkeit und Leistung unübertroffen, und die Garantie vor einem Ausfall ist eine willkommene Ergänzung. Nicht das billigste, aber wie viel Zeit ist es wert? Ich habe seit zwanzig Jahren die Server von Compaq gekauft und habe keinerlei Probleme damit, die 500-800 neuen Server pro Jahr zu kaufen, die ich kaufe. Schau sie dir ernsthaft an.

Chopper3
quelle
2

Die Antwort lautet wie immer "es kommt darauf an".

Für bestimmte Unternehmensspeicher (z. B. EMC) qualifiziert der Hersteller Laufwerke speziell und führt sogar das Laden benutzerdefinierter Firmware durch.

Wie Mark sagt, finde ich es am besten, wenn Sie der genehmigten Liste eines Anbieters folgen, wenn es eine gibt. Die anfänglichen Kosteneinsparungen werden durch die Zeit aufgewogen, die aufgewendet wurde, um Gremlins zu jagen.

Jauder Ho
quelle
stimmt, aber die "speziellen" Hitachi-SATA-Laufwerke von Lenovo kosten 250 US-Dollar, und ich kann dasselbe Hitachi-Laufwerk für 60 US-Dollar kaufen. Das ist ein Unterschied von fast dem Fünffachen, mit anderen Worten: 1250 US-Dollar gegenüber 300 US-Dollar. Ich bin bereit, ein wenig zu experimentieren für einen großen ...
Jeff Atwood
Ich weiß, dass das Markup manchmal lächerlich ist, Sie sollten die Preise für EMC-Laufwerke sehen! Aber es kommt darauf an, wie sehr Sie Ihre Daten schätzen. Zuverlässige Lagerung kostet $$$. Don MacAskill von Smugmug schwärmte von der Sun 7410, und das sollten Sie vielleicht ausprobieren.
Jauder Ho
Ich frage mich, ob es eine unterstützte 3ware-Karte gibt. Ich habe im Laufe der Jahre gute Erfahrungen mit ihnen gemacht.
Jauder Ho
2

Sie haben einen SAS-Controller, das könnte das Problem sein. Während das SAS-Protokoll zum Tunneln von ATA-Befehlen verwendet werden kann, ist die Signalisierung auf physikalischer Ebene etwas anders (SAS verwendet eine höhere Spannung und ein breiteres Differential). Fast alle Controller können direkt mit SATA-Laufwerken sprechen, aber wenn sich in der Mitte eine (große? Beschissene?) Backplane befindet, kann das Signal unterbrochen werden. Normalerweise wird in der Unternehmenswelt das Anschließen von SATA-Treibern direkt an einen SAS-Controller nicht offiziell unterstützt. Sie sollten einen Interposer verwenden (eine kleine Logikkarte, die direkt mit der Festplatte verbunden ist und auf der eine Seite das vollständige SAS-Protokoll versteht, auf der anderen Seite ATA - Auf diese Weise überträgt die Rückwandplatine die höhere SAS-Signalisierung.

Ein wenig verwandt: Das Mischen von SAS- und SATA-Laufwerken auf derselben Rückwandplatine schlägt in der Regel fehl, da die Signalisierung aller Laufwerke (einschließlich SAS) auf SATA-Pegel gesenkt wird.

Luca Tettamanti
quelle
1

Höchstwahrscheinlich benötigen Ihre WD-Laufwerke ein Firmware-Update . Informationen zum Herunterladen und Anwenden des Updates finden Sie in diesem IBM Hinweis . Wie Sie der Anleitung entnehmen können, sind die WD-Laufwerke bei weitem nicht die einzigen, bei denen Probleme auftreten.

Wenn Sie Ihre Laufwerke in eine anstrengende Serverumgebung versetzen, treten zwangsläufig mehr Probleme auf als bei einer typischen Desktop-Konfiguration für begeisterte Benutzer.

Können Sie vielleicht erläutern, warum Sie sich für die Deskstar- Serie der Desktop-Klasse anstelle der Ultrastar- Serie der Enterprise- / RAID-Klasse entschieden haben? Glauben Sie, dass die zusätzlichen Kosten die zusätzliche Zuverlässigkeit und Geschwindigkeit nicht wert sind?

Peter Stuer
quelle
Wenn es um Festplatten geht, glaube ich an viele von ihnen - billige und leicht austauschbare Arrays, bei denen die Leistung vom Maßstab abhängt.
Jeff Atwood
Seien Sie vorsichtig, wenn Sie Laufwerke für den Desktop mit Speichercontrollern für Unternehmen verwenden. Laufwerke der Enterprise-Klasse unterstützen (normalerweise) Befehle und Abfragen, die Laufwerke der Desktop-Klasse nicht unterstützen. Ein Unternehmensserver, den ich einmal geerbt habe, verwendete Laufwerke in Desktop-Qualität und sah häufige Fehler, als der Controller versuchte, Informationen zu Laufwerkstemperatur und -zustand von den Laufwerken abzurufen. Da Enterprise-Controller davon ausgehen, dass Sie Enterprise-Laufwerke verwenden, konnte der Controller ein Laufwerk, das nicht auf diese Anfragen reagiert hat, nicht ordnungsgemäß verarbeiten (da dies kein unterstütztes Setup war). Es ist alles sehr YMMV
bta
0

Als Ingenieur, der mit RAID-Controllern arbeitet, kann ich sagen, dass es für einige Laufwerksmarken nicht ungewöhnlich ist, Probleme mit bestimmten RAID-Controllern zu haben. Jedes Laufwerk hat seine besonderen Eigenheiten, und für jedes Laufwerksmodell, das in der Liste "Kompatible Geräte" des Controllers aufgeführt ist, werden die Eigenheiten vom Controller berücksichtigt. Damit ein Laufwerksmodell in der Liste aufgeführt wird, muss es die Anforderungen des Steuerungsherstellers hinsichtlich Leistung und Zuverlässigkeit erfüllen. Alle Laufwerke, die nicht in dieser Liste aufgeführt sind, funktionieren möglicherweise. Da sie jedoch nicht den gleichen strengen Tests unterzogen wurden wie "zugelassene" Geräte (YMMV).

Das SATA-Protokoll ermöglicht insbesondere herstellerspezifische (nicht standardisierte) Befehle, die vom Laufwerk oder der Steuerung definiert werden können. In Ihrem Fall wird möglicherweise ein Controller angezeigt, der erwartet, dass ein Laufwerk auf einen bestimmten proprietären Befehl reagiert, oder ein Laufwerk, das einen proprietären Befehl erwartet, der niemals eintrifft.

Eine andere Möglichkeit besteht darin, dass sich Ihre problematischen Laufwerke unter bestimmten Belastungen nicht gut verhalten und das von Ihnen festgestellte Verhalten für Adaptec / IBM ausreicht, um dieses Laufwerksmodell nicht als unterstützt aufzulisten.

Leider sind Speicherprotokolle (SATA, SAS usw.) nicht so gut wie andere standardisierte Schnittstellen (USB, PCI usw.), bei denen Sie lediglich einen Bus und ein Gerät benötigen, die dieselbe Sprache sprechen und alles in Ordnung ist. Insbesondere bei Geräten der Enterprise-Klasse wenden Gerätehersteller und Laufwerkhersteller viel Zeit und Energie für die Zusammenarbeit auf, um sicherzustellen, dass die Kunden die bestmögliche Leistung aus den von den meisten Kunden verwendeten Konfigurationen herausholen (d. H. Laufwerke von Drittanbietern verwenden) Liste der unterstützten Geräte). Ein Laufwerk, das nicht in dieser Liste aufgeführt ist, wurde möglicherweise für eine optimale Leistung mit einem Controller einer anderen Marke entwickelt, und die angezeigten Fehler sind ein Nebeneffekt der Optimierung.

bta
quelle