In unserem Shop setzen wir RAID auf allen unseren Workstations zuverlässig ein, wahrscheinlich nur, weil dies so zu sein scheint. Ich spreche von Workstations für wissenschaftliche Simulationen unter Verwendung der integrierten RAID-Chips.
Aber ich habe viele RAID-Horrorgeschichten gehört. Beim Stackoverflow selbst ist ein Ausfall aufgetreten , der indirekt vom RAID-Controller verursacht wurde .
RAID schützt Sie vor einer sehr begrenzten Art von Ausfall - Ausfall der physischen Festplatte - und führt gleichzeitig zu zusätzlichen Ausfallstellen. Es kann Probleme mit dem RAID-Controller geben, und dies ist häufig der Fall. Zumindest in unserem Shop scheint es, dass RAID-Controller mindestens so oft ausfallen wie Festplatten. Sie können auch leicht Probleme mit dem Austausch eines fehlerhaften Laufwerks haben.
Wann ist RAID die Mühe wert? Erzielen Sie keinen besseren Return on Investment, indem Sie Ihre Backup-Lösungen redundanter gestalten? Welche Art von RAID ist in dieser Hinsicht besser oder schlechter?
Bearbeiten: Ich habe den Titel vom Original "Ist RAID die Mühe wert?" Geändert, damit es weniger negativ klingt
quelle
Antworten:
Keine Sorge, RAID wird nicht in der gesamten Geschäftswelt eingesetzt, weil Sie überlegt sind! Die Chance, anständiger RAID - Controller Fehler ist weit, weit niedriger als die Chance auf einen Plattenausfall. Ich kann mich nicht erinnern, jemals einen RAID-Controller im wirklichen Leben ausgefallen zu sehen, während im Büro und im Rechenzentrum so manche Festplatte ausgefallen ist.
PS: Ich sehe deine Tags. RAID ist kein Backup! :)
quelle
ZFS von SUN (ebenfalls Teil von OpenSolaris; Apples OSX - derzeit schreibgeschützt) durchläuft nicht nur Raids mit verschiedenen Ebenen, sondern überprüft immer, ob die auf die Festplatte geschriebenen Daten tatsächlich vorhanden sind. Konsistenz ist der Schlüssel! RAID ist nutzlos, wenn Sie sich nicht auf seine Integrität verlassen können . Wählen Sie einen anständigen RAID-Controller (ich bevorzuge HP) und reinigen Sie Ihr RAID, um regelmäßig Fehler zu finden.
Softwareraid (als ZFS) hingegen macht Sie hardwareunabhängiger, wenn der RAID-Controller ausfällt und Sie keinen genauen Ersatz erhalten.
quelle
Immer. Datenträger sind billig, Ihre Daten jedoch nicht. Verwenden Sie jedoch Software-RAID, damit Sie die Flexibilität haben, später voranzukommen oder die Hardware zu ändern (vertrauen Sie mir, Sie werden es brauchen). Verwenden Sie außerdem ein Prüfsummen-Dateisystem wie ZFS, um sich gegen unbeaufsichtigte Datenbeschädigung zu schützen (was heutzutage bei großen Festplatten sehr wahrscheinlich ist).
quelle
Für diejenigen unter Ihnen, die sagen, dass Sie kein Hardware-RAID verwenden, denn wenn der Controller ausfällt und Sie keinen identischen Ersatz für Ihre Schraube erhalten, verfahren Sie falsch.
Wenn die Verfügbarkeit für Sie so wichtig ist, sollten Sie KEINE billige Hardware kaufen. Verwenden Sie wie gesagt einen guten RAID-Controller, HP, LSI, Dell usw.
Wenn der Controller beim Computerhersteller, dh beim Dell-Server, mit Dell RAID-Controller gekauft wurde, werden Sie von Dell darüber informiert, wie lange diese Teile vorrätig sein werden, in der Regel in den mehr als vier Jahren ab der EOL dieses Servers.
Wenn jemand schnell wieder läuft und Sie nicht auf die Lieferung warten können, sollten Sie einen zweiten Ersatz-Controller für sich selbst kaufen, unabhängig davon, wer ihn hergestellt hat.
Wenn Sie ein RAID 1 einrichten, können Sie manchmal eines dieser Laufwerke verwenden und auf einem normalen Controller ablegen, um die Daten wiederherzustellen. Wenn Ihnen das wichtig ist, überprüfen Sie dies mit Ihrem Controller, bevor Sie sich in einer kritischen Situation befinden.
Hardware-RAID sparte meinen Hintern 2x. Sobald auf einem E-Mail-Server eines der Laufwerke ausfiel, erhielt ich die E-Mail-Benachrichtigung von der Raid-Überwachungssoftware auf diesem Computer, rief Dell an und hatte am nächsten Tag ein neues Laufwerk, schaltete es ein und stellte es von selbst wieder her. NULL Ausfallzeit auf diesem
Zweitens ist ein Laufwerk in einem alten Dateiserver ausgefallen, dessen Austausch in 6 Monaten geplant war. Der Controller hat es am Laufen gehalten und wir haben den Austausch des Servers auf diese Woche verschoben. Der Kauf eines neuen Laufwerks wurde gespart (da die Garantie abgelaufen ist) und die Ausfallzeit wurde auf NULL gesetzt.
Ich habe schon früher Software-Raids verwendet, die sich einfach nicht so gut erholen wie Hardware-Raids. Sie müssen Ihr Setup, Ihre Software oder Hardware testen, um sicherzustellen, dass es funktioniert, und um zu wissen, was zu tun ist, wenn das braune Zeug auf den Lüfter trifft.
quelle
Festplattenausfälle treten in einem Server sehr viel häufiger auf als auf einer Desktop-Workstation ...
Sie können nicht einfach "Hinzufügen weiterer Fehlerpunkte" sagen, ohne die Wahrscheinlichkeit dieses Fehlers zu berücksichtigen. Zumal diese weniger wahrscheinlichen Fehlerpunkte speziell dafür vorgesehen sind, den wahrscheinlichen Festplattenabsturz zu verhindern. Wie Sie es ausgedrückt haben, haben Sie im Grunde einen Pascal-Wette- ähnlichen Trugschluss geschaffen.
Bei den meisten RAID-Systemen auf Desktop-Motherboards handelt es sich um billige Software- / Hardware-Hybride, wobei der größte Teil der Arbeit im Softwaretreiber ausgeführt wird. IMHO sind sie Miststücke, die verwendet werden, um an Power-User zu verkaufen.
Auf der anderen Seite ist ein gutes Hardware-RAID ziemlich zuverlässig und es hat die Hardware, die (trotz?) Des Betriebssystems ihre Aufgabe zu erfüllen. Diese werden jedoch teuer, da bei echter Hardware normalerweise Batteriesicherungen und ein vollständiges XOR-Array zur Berechnung von Prüfsummen usw. vorhanden sind. Noch teurer, wenn SCSI verwendet wird.
Zusammenfassung: Wenn Sie ein Motherboard-basiertes RAID-System verwenden, ist dies die Mühe nicht wert.
quelle
Obwohl Backups und RAID Lösungen für verschiedene Probleme sind, sind die meisten "RAID-Probleme" dem häufigsten Backup-Problem sehr ähnlich (dh niemand testet eine Wiederherstellung) - niemand testet die Systemwiederherstellung. Andere RAID-Probleme sind oft die direkte Folge von Menschen, die nicht verstehen, was es tut und was nicht. Zum Beispiel denken viele Leute, dass RAID die Integrität ihrer Daten garantiert - nicht.
Wenn Sie auf Workstations RAID-0 verwenden, um die Leistung von E / A-gebundenen Anwendungen zu verbessern, oder RAID-1/5/6, um die Arbeit von Wissenschaftlern bei Ausfall ihrer 80-Dollar-Festplatte auf 100 US-Dollar / Stunde zu beschränken, verwenden Sie RAID entsprechend. Verwechseln Sie die Festplattenredundanz nicht mit der Datensicherung , und führen Sie Tests durch, um sicherzustellen, dass Ihre IT-Mitarbeiter die Wiederherstellung durchführen.
quelle
Es gibt zwei Arten von RAID
Einige Betriebssysteme haben eine gute Software-Raid-Lösung (dies hat nichts mit den oben erwähnten beschissenen Karten zu tun). Linux Software Raid ist besonders gut, seine Leistung ist wirklich gut.
Raid kann nur die Zuverlässigkeit verbessern, es ist keine Backup-Lösung. Dateien können versehentlich gelöscht werden, fehlerhafte Datenträger können fehlerhafte Daten auf andere Datenträger in einem RAID-Array zurückgeben (und duplizieren), sodass weiterhin eine echte Sicherungslösung benötigt wird.
quelle
RAID eignet sich hervorragend für die Verfügbarkeit, ist jedoch kein Ersatz für Backups. Wie ein Kollege einmal kommentierte: "Sie wissen, dass" Oh, sh! T "Moment, als Sie versehentlich etwas gelöscht haben? RAID bedeutet nur, dass Sie" Oh, sh! T "mehr als ein Laufwerk gleichzeitig haben."
Das heißt, an dem Tag, als Sie Ihren Kopf in das Büro Ihres Chefs stecken und ihr sagen: "Übrigens, der Datenbankserver hatte letzte Nacht einen Festplattenabsturz - wir sind nie ausgefallen, er wurde um 5 Uhr morgens auf dem Ersatzlaufwerk wiederhergestellt Ich habe das fehlerhafte Laufwerk im Rahmen der Garantie abgeschickt "- dann ist RAID von unschätzbarem Wert.
quelle
Wie hoch ist Ihre Ausfallrate bei Festplatten und RAID-Controllern? Der Ausfall des RAID-Controllers sollte weit unter den Festplatten liegen. Wenn Sie eine hohe Ausfallrate haben, möchten Sie möglicherweise Ihre Umgebung untersuchen, z. B. statische Entladungen, die Probleme verursachen können.
Auf Workstations können Sie Software-Raid verwenden, wie von Alakdae vorgeschlagen, da Sie sich nicht um die Vorratshaltung des genauen Hardware-Controllers kümmern müssen. Sie sollten jedoch alle wichtigen Informationen auf Ihren Servern gespeichert haben, auf denen ein Hardware-Raid durchgeführt wurde und die auf verschiedenen Datenträgern gesichert wurden.
Hersteller von Serverhardware unterhalten RAID-Controller. Selbst wenn es sich um einen älteren Controller handelt, können Sie diesen normalerweise bei Bedarf beziehen (dies kostet Sie jedoch einen schönen Cent).
quelle
Es scheint, dass viele der oben genannten Posts die ursprüngliche Frage vergessen und nur über RAID 1 debattieren. Die Frage war: "Wann ist RAID die Mühe wert?" Nun, es kommt darauf an ... Wenn Ihre Entwickler mit ihren Workstations viele Daten lesen und schreiben, lohnt sich eine RAID 0-Konfiguration. Das Hinzufügen weiterer Laufwerke zu diesem RAID 0 erhöht natürlich die Geschwindigkeit und Leistung, erhöht jedoch die Wahrscheinlichkeit eines Ausfalls (Festplatte oder Controller).
Ich arbeite für eine Krankenpflegeschule, an der ungefähr 500 Dell-Maschinen installiert sind und von denen fast keine RAID-Systeme verwenden. Es scheint mir, dass meine Art von Benutzern nicht genug Vorteile sieht, um die Komplexität eines RAID-Systems auf jedem Computer zu erhöhen. Ich mache mir mehr Sorgen um Datenwiederherstellung und Festplatten-Imaging als um die Geschwindigkeit von RAID 0 oder die Redundanz von RAID 1. Natürlich spreche ich nicht über unsere Produktionsserver, das ist eine andere Geschichte. Da die Datenwiederherstellung von entscheidender Bedeutung ist, verlassen wir uns auf andere Sicherungsmethoden, um mehr als nur Festplattenredundanz zu gewährleisten. Jede Art von RAID hilft Ihnen nicht, wenn ein Benutzer versehentlich eine Datei löscht.
Um Ihre Frage zu beantworten, lohnt sich IMHO ... RAID 0 auf einer Workstation, wenn der Benutzer die Leistung benötigt. (Stellen Sie einfach sicher, dass alle importa-Daten gesichert sind.) Ich bin sicher, dass Sie den Datendurchsatz des vorhandenen Setups überprüfen können, um festzustellen, ob er angemessen ist. RAID 1 sollte in einer Serverumgebung verwendet werden, in der RAID-Controller höherer Klasse verfügbar sind. Die Arbeit an einer Workstation lohnt sich nicht, da sie die Bereitstellung, das Festplatten-Imaging und Reparaturen erschwert. Viele dieser Workstations sind mit RAID-Controllern auf dem Motherboard ausgestattet. Es ist ein gutes Gefühl zu wissen, ob ein Motherboard auf einem Computer ausgeht. Ich kann das Laufwerk jederzeit in ein anderes System einbauen, um die Daten abzurufen.
quelle
Linux-Software-RAID ist exzellent und übertrifft Low-End-Hardware-RAID um Längen. Es enthält auch einige Optimierungen, die für eine Workstation nützlich sein können. Zum Beispiel kann es verschiedene Dinge gleichzeitig auf jeder Festplatte lesen, wodurch die Lesezeiten beim wahlfreien Zugriff effektiv verdoppelt werden. Dies ist ein häufiger Anwendungsfall im Gegensatz zu durch RAID 0 optimierten Operationen, die an die Übertragungsrate gebunden sind .
Die Zuverlässigkeit ist ein sehr gut gepflegter Teil des Linux-Kernels, der von Millionen genutzt wird. Er behandelt Hardwarefehler sehr gut, was die Verfügbarkeit betrifft, ist er also eindeutig ein Gewinn. Ich habe es jahrelang auf meinen persönlichen Workstations sowie auf ein paar Dutzend Low-End-Servern verwendet, von denen einige ziemlich ausgelastet waren, und konnte es keinem Fehler zuordnen. Ich habe in der Zwischenzeit jedoch ein gutes Dutzend kaputte Festplatten erlebt.
(High-End-Hardware-RAID-Karten verfügen jedoch über andere Funktionen, wie z. B. batteriegepufferten Schreibcache. Er multipliziert die zufällige Schreibgeschwindigkeit für synchronisierte Festplatten mit zehn. Dies ist für Datenbanken unbedingt erforderlich, für Workstations wahrscheinlich ziemlich nutzlos.)
quelle
Ich hatte gerade die RAID-Controller in zwei (identischen) Servern ausgefallen, da wir diese beiden Maschinen hatten, hatten wir nicht einen Festplattenfehler in der gesamten Firma.
Ich halte RAID auf dem Desktop für eine schlechte Idee. Die billigen RAID-Controller, die Sie auf diesen Computern installieren, fallen lange vor der eigentlichen Festplatte aus.
Auf Servern werde ich RAID-Controllern möglicherweise nicht mehr vertrauen. Stellen Sie sicher, dass Sie einen Ersatzcomputer und gute Backups haben.
quelle
Ich bin Entwickler und alle unsere Workstations verwenden RAID für die internen Laufwerke. RAID 0. Das ist es definitiv wert. Sie möchten nie wieder von einem einzelnen 7200 U / min-Laufwerk kompilieren, nachdem Sie ein Paar 15000er ausprobiert haben.
Ich wurde gefragt, ob es das RAID oder das 15-KB-Laufwerk ist, das die Kompilierungszeiten verkürzt. Ich weiß nicht, zum Kompilieren kann ein einzelnes schnelles Laufwerk genau die gleiche Leistung bringen. Ein einzelnes SAS-Laufwerk ist jedoch für einen modernen PC nicht besonders groß, sodass das teure On-Board-RAID immer noch einen Platz hat. Das und ich bezweifle, dass RAID jemals die Leistung des Systems beeinträchtigen wird.
Ich denke, diese Art von RAID ist auf jeden Fall für eine Workstation geeignet und wird wahrscheinlich am besten mit den kostengünstigen On-Board-Controllern durchgeführt. Auf der Serverseite verfügen die meisten unserer Server über ein RAID-Array für die Betriebssystemfestplatte, und die Daten befinden sich dann in einem separaten Array mit einer geeigneten Form. Ich weiß nichts über unsere Produktionsserver, aber unsere Entwicklungsserver (von denen wir eine ganze Menge haben) hatten noch nie einen Controllerausfall, wir hatten jedoch einen Laufwerksausfall. In einem Fall war die Hälfte des Betriebssystem-Arrays auf einer SQL-Box ausgefallen, während es neu erstellt wurde, und die andere Platte ist ausgefallen! Manchmal ist RAID1 einfach nicht genug!
quelle
Für Ihre wissenschaftlichen Arbeitsplätze kann es sich lohnen, wenn diese Systeme mit ihren lokal gespeicherten Daten besser arbeiten als mit einer Freigabe auf einem Dateiserver. Für die allgemeine Bevölkerung würde ich jedoch nein sagen. Es ist den Aufwand und die Kopfschmerzen nicht wert, wenn alles, was Sie wirklich brauchen, die Wiederherstellung von Daten ist, die auf Freigaben aufbewahrt werden sollen.
quelle
RAID ist nur dann nützlich, wenn Sie absolut sicher sind, dass der Server nicht unerwartet ausfällt. Wir verwenden RAID auf allen unseren Servern in unserem Rechenzentrum, wo es keine andere Form von Redundanz gibt. Zum Beispiel verwenden wir kein RAID auf unseren Webservern, da noch weitere 10 funktionieren.
Der Lackmus-Test lautet: "Wenn eine Festplatte mitten in der Nacht kaputt geht und nicht bis 9 Uhr morgens warten kann, benötigt sie RAID."
quelle
RAID ist die Mühe wert, wenn Sie einen batteriegepufferten Controller haben.
Bei Serveranwendungen, bei denen häufig fdatasync () - Protokolldateien (was in Datenbanken nicht ungewöhnlich ist) für eine lange Lebensdauer verwendet werden, werden Sie am Ende immer wieder dieselben Blöcke schreiben. Dies beeinträchtigt die E / A-Leistung, wenn Sie keinen batteriegepufferten Controller haben.
Wenn Sie einen batteriegepufferten Controller haben, erreichen viele Schreibvorgänge nicht einmal die Disks, sondern verbleiben nur im Speicher, bis sie durch einen anderen Schreibvorgang ersetzt werden. Das ist eine gute Sache.
Die Redundanz ist ein Bonus, aber nicht unbedingt erforderlich, da wichtige Dinge auf Systemebene redundant sein sollten.
quelle
Billige RAID-Implementierungen sind schrecklich.
Sie können in der Reihenfolge der Zuverlässigkeit zwischen folgenden Optionen wählen:
Alles andere ist problematisch und kann in der Tat zu einer geringeren Gesamtzuverlässigkeit führen als eine Nicht-RAID-Lösung.
Überlegen Sie, was zu tun ist, wenn Ihr Controller ausfällt und der Hersteller nicht mehr im Geschäft ist.
Überlegen Sie, ob Sie einen offensichtlichen Doppelplattenfehler beheben können, der durch Stromversorgungs- / Verkabelungsprobleme verursacht wurde.
Das sind zwei Beispiele unter Hunderten.
quelle
Für Workstations lohnt sich RAID wahrscheinlich nicht im Vergleich zu einem neuen System, auf dem Daten wiederhergestellt werden können ...
Viele sprachen über RAID 0 ... das hilft nicht bei der Verfügbarkeit. Sie verdoppeln die Wahrscheinlichkeit, dass der Datenträger ausfällt, da Sie das Ganze verlieren, sobald ein Laufwerk ausfällt. Bei RAID 0 geht es nur darum, mit der Zugriffsgeschwindigkeit auf Lese- / Schreibvorgänge auf einem Volume zu spielen und mehr Speicherplatz bereitzustellen. In einem Geschäftsumfeld kann dies nur helfen, wenn Sie zwei RAID 0 verwenden und sie als RAID 1 spiegeln.
RAID ist keine Backup-Lösung, wie bereits erwähnt.
RAID ist auch nicht perfekt. Ich denke, dieser Beitrag aus dem Blog dieses Typen fasst zusammen, wie ich RAID finde und wann es sich lohnt: Denken Sie an RAID?
Auf einer Workstation sollten Sie in der Lage sein, eine Person dazu zu bringen, ein anderes System zu verwenden, während ein Ersatz eingeführt wird. Warum RAID verwenden? Seine Daten sollten auf dem Server gespeichert werden, auf dem Verwaltung, Datenintegrität und Sicherungen zentralisiert sind. Die Workstation sollte so konfiguriert werden, dass sie regelmäßig aktualisiert oder geändert werden kann, wenn die Finanzen dies zulassen. Das RAID ist nur eine weitere Ebene mit Kosten und Kopfschmerzen (zuzüglich Stromverbrauchs- und Heizungsproblemen mit zusätzlichen Laufwerken und Auferlegung des Luftstroms). In den meisten Fällen ist es für Unternehmen wahrscheinlich weitaus kostengünstiger, das Geld von einer RAID-Karte in ein größeres Laufwerk zu stecken. Wenn Sie Onboard-RAID verwenden, treten immer noch Probleme auf, da dies das RAID in der Regel bindet Format auf das Motherboard (und es ist sowieso nicht wahr RAID ... es wird in Google-Suchen als "Fake Raid" gefunden.
quelle
Warum auf einer Workstation arbeiten? Sicherlich haben Sie alle Ihre Home-Verzeichnisse und Daten zentral gespeichert. Hier möchten Sie raid verwenden.
quelle
Wenn Sie befürchten, dass ein Laufwerkscontroller ausfällt, müssen Sie auch den Ausfall des Servers berücksichtigen - Lüfter, Motherboard, RAM, Netzwerk ... und dann müssen Sie auch den Ausfall des Routers, die Verkabelung und die Stromversorgung ... und Sie müssen auch den Ausfall des Rechenzentrums berücksichtigen (Überschwemmung, Brand, menschliches Versagen) und dann den Ausfall des externen Netzwerks (Kabel durchtrennt - an manchen Stellen die ganze Zeit!).
Kurz gesagt, Sie können sich über die Ausfallzeiten der Website so viele Sorgen machen, dass Sie sich nie die Mühe machen würden, etwas online zu stellen! Oder Sie können das Ausfallrisiko gegen die Redundanzkosten abwägen und einen realistischeren Ansatz wählen. Und von allen Dingen , die ich aufgeführt, ist die Festplatte das einzige am wahrscheinlichsten Punkt des Scheiterns.
Das heißt, neben menschlichem Versagen. Wer tippt "
shutdown -h now
" wann wollten sie neu starten .... :(quelle
Meine große Sorge sind Festplatten, da man die billigen Artikel anscheinend nicht kaufen kann:
Ein wichtiger Anbieter stellt fest:
'Die meisten RAID-Controller sind so konzipiert, dass bei einem bestimmten Befehl eine Zeitüberschreitung auftritt, wenn das Festplattenlaufwerk innerhalb eines bestimmten Zeitraums nicht mehr reagiert. Das Ergebnis ist, dass das Laufwerk offline oder als fehlerhaft markiert angezeigt wird und eine Warnung an den Kunden gesendet wird. Für Laufwerke der Enterprise-Klasse (oder für RAID-Umgebungen entwickelte Laufwerke) gilt ein Wiederholungslimit, bevor ein Sektor als fehlerhaft markiert wird. Diese Wiederholungsbeschränkung ermöglicht es dem Laufwerk, innerhalb des erwarteten Zeitrahmens auf den RAID-Controller zu reagieren. Während Desktop-Laufwerke möglicherweise mit einem RAID-Controller kompatibel sind, wird das Array mit zunehmendem Alter des Festplattenlaufwerks zunehmend offline geschaltet und kann zu Datenverlust führen. '
Das scheint mir verrückt zu sein, eine andere Sache, die sicherstellt, dass die Festplattenanbieter viele Renditen von Leuten erhalten, die es nicht besser wissen. Ich habe jedoch gelesen, dass Google ein Whitepaper erstellt hat (kann es aber nicht finden), das zeigt, dass es keinen Unterschied in der Laufwerkszuverlässigkeit zwischen den beiden von den Speicheranbietern angebotenen "Klassen" gibt. Ich bezweifle, dass Google Hardware-Raid-Controller in seiner beige Box-Flotte einsetzt.
Vielleicht hat mdadm (in linux raid) einstellungen, die man verwenden kann, um mit den ungeduldigeren einstellungen in desktop drive firmwares umzugehen?
Vielleicht zahlt in der Realität jeder für seine Garantie durch eine Zeitüberschreitung in der Controller-Firmware?
quelle