Ich bin verantwortlich für eine neue Website in einer Nischenbranche, in der viele Daten gespeichert sind (10+ TB pro Kunde, bald 2 oder 3 Kunden). Wir erwägen die Bestellung von 3-TB-Laufwerken im Wert von etwa 5000 US-Dollar (10 in einer RAID 6-Konfiguration und 10 für die Sicherung), wodurch wir ungefähr 24 TB Produktionsspeicher erhalten. Die Daten werden einmal geschrieben und bleiben während der gesamten Lebensdauer der Website unverändert. Daher müssen wir nur einmal ein Backup durchführen.
Ich verstehe die grundlegende RAID-Theorie, bin jedoch nicht damit vertraut. Meine Frage ist, klingt das nach einer guten Konfiguration? Welche potenziellen Probleme könnte dieses Setup verursachen?
Was ist der beste Weg, um eine einmalige Sicherung durchzuführen? Haben Sie zwei RAID 6-Arrays, eines für Offsite-Backups und eines für die Produktion? Oder sollte ich das RAID 6-Produktionsarray auf einem JBOD sichern?
BEARBEITEN: Auf dem Datenserver wird Windows 2008 Server x64 ausgeführt.
EDIT 2: Um die Wiederherstellungszeit zu verkürzen, was würden Sie über die Verwendung von zwei RAID 5 anstelle eines RAID 6 denken?
quelle
Antworten:
Ich unterstütze derzeit 220 Server mit bis zu 96 TB (insgesamt 2 PB oder so), einige in Clustern mit bis zu 240 TB, die mein Team erstellt hat. Hier sind meine Ratschläge:
quelle
Ehrlich gesagt denke ich, dass $ 5k für die Laufwerke etwas steil sind ... aber das ist ein ganz anderes Thema. Das Setup klingt gut genug, aber im Falle eines Laufwerksausfalls ... dauert es für immer, bis eine einzelne Lautstärke von 24 TB wiederhergestellt ist. (Haben Sie jemals versucht, 3 TB Daten zu lesen, die auf 9 andere Festplatten verteilt sind?) Es wäre besser, kleinere Raid-Sets zu haben und diese zu einem größeren Volumen zusammenzufügen. Wenn ein Laufwerk ausfällt, wird nicht die Leistung des gesamten Volumes beeinträchtigt, während das Ganze neu erstellt wird ... sondern nur die Leistung des einen Raid-Sets.
Abhängig davon, auf was Ihre Website ausgeführt wird ... (Linux / Windows / OSX / Solaris / ???) kann auch festgelegt werden, welche Tools Sie verwenden und welche Konfiguration Sie verwenden.
Was meinst du mit einem "einmaligen Backup"? Wenn Sie ein "Einwegarchiv" gemeint haben ... (dh neue Dateien werden auf den Sicherungsserver geschrieben ... aber es wird nie etwas davon gelesen), empfehle ich dringend die Verwendung von rsync in Umgebungen mit * nix-Geschmack (Linux / Unix /) etc ...) oder wenn es auf IIS (Windows) basiert, verwenden Sie so etwas wie Synctoy oder xxcopy. Wenn Sie eine LIVE-Kopie benötigen (0 Verzögerung zwischen dem Schreiben einer Datei und dem Erscheinen auf einem anderen Server), müssen Sie weitere Informationen zu Ihrer Umgebung bereitstellen. Linux und Windows funktionieren völlig anders und die Tools sind zu 100% unterschiedlich. Für solche Dinge möchten Sie sich wahrscheinlich mit Clustered-File-Systemen befassen und sollten sich eher mit einem SAN als mit einem hostbasierten Speicher befassen.
quelle
Wir verwenden im Allgemeinen RAID5 oder 6 für Sicherungsdatenträger, da dies das beste Preis-Leistungs-Verhältnis bietet, wenn Sie RAID 0 ignorieren :-), also würde ich mich eher für JBODs als für JBODs entscheiden
Eine Sache, die Sie in Betracht ziehen könnten, ist der Kauf Ihrer Festplatten in separaten Chargen und nicht in allen 20 auf einmal, als ob ein Fertigungsfehler in einer Charge vorliegt. Sie können zu ähnlichen Zeiten ausfallen.
Möglicherweise möchten Sie auch die Verwendung von Spiegelung anstelle herkömmlicher Sicherungen in Betracht ziehen, wenn die Daten nur einmal geschrieben werden. Es gibt eine ganze Reihe von Software- und Hardwarespeichersystemen, mit denen dies eingerichtet werden kann, und Sie können in diesem Fall auch den Vorteil eines Failovers nutzen Ihres primären Speichers schlägt fehl.
quelle
Eine Option, die gut zu Ihrem Anwendungsfall passt, insbesondere wenn Ihre Anforderungen weiter steigen, ist ein HSM (Hierarchical Storage Manager). Ich habe mehrere HSMs mit bis zu 150 TB Festplatte und 4PB Band installiert.
Die Idee ist, dass ein HSM den Lebenszyklus von Daten verwaltet, um die Gesamtkosten für die Speicherung zu senken. Die Daten werden zunächst auf der Festplatte gespeichert, aber fast sofort auf Band archiviert (was pro Byte viel billiger ist). Archivrichtlinien können so konfiguriert werden, dass sie für zusätzliche Sicherheit mehrere Kopien auf Band speichern, und die meisten Benutzer nehmen eine zweite Kopie außerhalb des Unternehmens. Die Migration zum und vom Band ist für den Endbenutzer transparent - die Dateien werden weiterhin im Dateisystem angezeigt.
Wenn der Endbenutzer die Datei in Zukunft anfordert, werden die Daten automatisch vom Band zurückgesendet und dem Benutzer bereitgestellt. Bei einer Bandbibliothek verlängert der Staging-Prozess die Abrufzeit nur um etwa eine Minute.
Ein großer Vorteil eines HSM ist die Wiederherstellungszeit, wenn Ihre Festplatten ausfallen oder wenn das Dateisystem beschädigt ist. Wenn Sie jemals einen katastrophalen Festplatten- oder Dateisystemfehler haben, können Sie einfach eine weitere Festplatte finden und eine aktuelle Sicherung der Dateisystem-Metadaten wiederherstellen (ein winziger Bruchteil des gesamten Datenvolumens). Zu diesem Zeitpunkt sind alle Daten wie gewohnt auf Anfrage verfügbar.
quelle
Wenn Sie die RAID-Konfiguration für einen San bestimmen, müssen Sie sich um die Leistung, die Zuverlässigkeit und die erforderliche Wiederherstellungszeit kümmern. Da Sie die Anzahl der Paritätsschreibvorgänge verdoppeln (abhängig von Ihrem besonderen Geschmack von RAID 6), ist es normalerweise am besten, die Berechnungen in einem San mit benutzerdefinierten ASICs durchzuführen. Da Ihre Daten statisch sind, besteht Ihre eigentliche Sorge darin, wie lange Sie es sich leisten können, sich in einem verschlechterten Zustand zu befinden, wenn 1 Laufwerk ausfällt. Bemerkenswert ist auch, dass Laufwerke dazu neigen, mehrere zu versagen. Daher ist es am besten, Laufwerke mit einer gewissen Zeit zwischen den Sätzen zu installieren.
In Bezug auf Backups sehe ich keine Notwendigkeit für Redundanz im Backup-Set, sodass JBOD in Ordnung ist
quelle
Ich habe derzeit Dateisysteme in diesem Maßstabsbereich mit derzeit 58 TB vor Ort sowie eine separate Kopie außerhalb des Standorts.
Ich hatte einige Laufwerksausfälle und je größer die Laufwerke, desto länger dauert die Wiederherstellung. Um dies etwas zu erleichtern, habe ich den Speicher in mehrere RAIDs aufgeteilt, von denen jedes 5-7 Laufwerke umfasst. Es ist derzeit RAID5, aber wenn ich 3-TB-Laufwerke bekomme, plane ich, RAID6 zu verwenden.
Es ist alles mit LVM verbunden und neu aufgeteilt, sodass ich nicht darüber nachdenken muss, was wohin geht, sondern bei Bedarf einfach zusätzliche Boxen hinzufügen und alte Laufwerke entfernen, wenn sie zu klein sind, um die von ihnen belegten Steckplätze zu rechtfertigen.
Bei der Hardware handelt es sich hauptsächlich um Coraid AoE-Boxen (einige iSCSI-Ziele werden jedoch bald beitreten), die mit LVM verwaltet werden. Die Dateisysteme sind Ext3 / 4, wenn sie unter 4-6 TB liegen, oder XFS, wenn sie darüber liegen (derzeit bis zu 34 TB). Alle Backups werden mit
rsync
und DVD für das Offline-Archiv abgewickelt .Abgesehen von einigen Überwachungssoftware (meistens Zabbix) ist es ein nahezu wartungsfreies Setup.
quelle
Ein weiterer Punkt, um das zu ergänzen, was alle hier sagen. Wenn Sie unter Windows und großen Dateisystemen ein Dateisystem aufteilen möchten, aber die gleiche Dateistruktur wie zuvor beibehalten möchten, sollten Sie diese Laufwerke in Ordnerpfaden einbinden.
http://technet.microsoft.com/en-us/library/cc753321.aspx
quelle
Ich bin überrascht, dass niemand vorgeschlagen hat, MogileFS ( Github ) zu verwenden.
MogileFS spiegelt Daten automatisch auf verschiedenen Servern und jede Festplatte ist nur eine "JBOD" -Dummdiskette. Es gibt viele Produktionsinstallationen mit vielen TBs (100+) Daten.
Für die Serverhardware gibt es viele Optionen für "viele Festplatten in einem Gehäuse". Zum Beispiel ein Backblaze Pod (ein bisschen Do-it-yourself / relativ nicht unterstützt) oder ein Super Micro-Server (wir verwenden Silicon Mechanics . Ich glaube, bei wordpress.com verwenden sie normale 2U Dell-Server mit MD1000-Gehäusen für die Festplatten.
quelle