Google hat eine sehr gründliche Studie zu Festplattenfehlern durchgeführt, bei der festgestellt wurde, dass ein erheblicher Teil der Festplatten in den ersten drei Monaten nach starker Nutzung ausfällt.
Meine Kollegen und ich sind der Meinung, dass wir einen Einbrennprozess für alle unsere neuen Festplatten implementieren könnten, der uns möglicherweise ein wenig Mühe ersparen könnte, Zeit auf neuen, nicht getesteten Laufwerken zu verlieren. Bevor wir jedoch einen Burn-In-Prozess implementieren, möchten wir einige Einblicke von erfahreneren Personen erhalten:
- Wie wichtig ist es, eine Festplatte einzubrennen, bevor Sie sie verwenden?
- Wie implementieren Sie einen Burn-In-Prozess?
- Wie lange brennen Sie auf einer Festplatte?
- Mit welcher Software brennen Sie Laufwerke ein?
- Wie viel Stress ist zu viel für einen Einbrennprozess?
BEARBEITEN: Aufgrund der Art des Geschäfts sind RAIDs die meiste Zeit unmöglich zu verwenden. Wir müssen uns auf einzelne Laufwerke verlassen, die ziemlich häufig landesweit verschickt werden. Wir sichern Laufwerke, sobald wir können, aber hier und da treten noch Fehler auf, bevor wir die Möglichkeit haben, Daten zu sichern.
AKTUALISIEREN
Mein Unternehmen hat bereits seit einiger Zeit einen Einbrennprozess implementiert, der sich als äußerst nützlich erwiesen hat. Wir brennen sofort alle neuen Laufwerke ein, die wir auf Lager haben, sodass wir viele Fehler finden können, bevor die Garantie abläuft und bevor wir sie in neue Computersysteme einbauen. Es hat sich auch als nützlich erwiesen, zu überprüfen, ob ein Laufwerk defekt ist. Wenn auf einem unserer Computer Fehler auftreten und eine Festplatte der Hauptverdächtige ist, führen wir den Einbrennvorgang auf diesem Laufwerk erneut aus und überprüfen alle Fehler, um sicherzustellen, dass das Laufwerk tatsächlich das Problem darstellt, bevor wir den RMA-Vorgang starten oder einen Fehler auslösen es in den müll.
Unser Einbrennprozess ist einfach. Wir haben ein Ubuntu-System mit vielen SATA-Ports und führen Badblocks im Lese- / Schreibmodus mit 4 Durchläufen auf jedem Laufwerk aus. Zur Vereinfachung haben wir ein Skript geschrieben, das die Warnung "DATEN WERDEN AUS ALLEN LAUFWERKEN LÖSCHEN" ausgibt und dann auf jedem Laufwerk außer dem Systemlaufwerk Badblocks ausführt.
Antworten:
Wenn Sie ein gutes Backup und gute Hochverfügbarkeitssysteme haben, dann nicht sehr viel. Da die Wiederherstellung nach einem Fehler ziemlich einfach sein sollte.
Ich werde normalerweise Badblocks gegen ein Laufwerk oder ein neues System ausführen , wenn ich es bekomme. Ich werde es ausführen, wenn ich einen Computer vom Ersatzstapel wiederbelebe. Ein Befehl wie dieser (
badblocks -c 2048 -sw /dev/sde
) schreibt tatsächlich viermal mit einem anderen Muster in jeden Block (0xaa, 0x55, 0xff, 0x00). Dieser Test unternimmt nichts, um viele zufällige Lese- / Schreibvorgänge zu testen, sollte jedoch beweisen, dass jeder Block auch geschrieben und gelesen werden kann.Sie können auch bonnie ++ oder iometer ausführen, die Benchmarking-Tools sind. Diese sollten versuchen, Ihre Laufwerke ein wenig zu belasten. Laufwerke sollten nicht ausfallen, auch wenn Sie versuchen, sie zu maximieren. Sie könnten also genauso gut versuchen zu sehen, was sie können. Das mache ich aber nicht. Wenn Sie sich mit Leistungsproblemen befassen, kann es in Zukunft sehr nützlich sein, einen E / A-Benchmark Ihres Speichersystems direkt zur Installations- / Einrichtungszeit zu erstellen.
Ein einziger Durchlauf von Badblocks ist meiner Meinung nach ausreichend, aber ich glaube, ich habe ein sehr starkes Backup-System und meine HA-Anforderungen sind nicht so hoch. Ich kann mir einige Ausfallzeiten leisten, um den Service auf den meisten von mir unterstützten Systemen wiederherzustellen. Wenn Sie so besorgt sind, dass möglicherweise ein Setup mit mehreren Durchläufen erforderlich ist, sollten Sie wahrscheinlich über RAID, gute Backups und ein gutes HA-Setup verfügen.
Wenn ich in Eile bin, kann ich ein Einbrennen überspringen. Meine Backups und RAID sollten in Ordnung sein.
quelle
IMNSHO, Sie sollten sich nicht auf einen Einbrennprozess verlassen, um fehlerhafte Laufwerke auszusortieren und Ihre Daten zu "schützen". Das Entwickeln und Implementieren dieses Verfahrens wird Zeit in Anspruch nehmen, die an anderer Stelle besser genutzt werden könnte, und selbst wenn ein Laufwerk eingebrannt ist, kann es Monate später immer noch fehlschlagen.
Sie sollten RAID und Backups verwenden, um Ihre Daten zu schützen. Sobald dies geschehen ist, kümmern wir uns um die Laufwerke. Gute RAID-Controller und Speichersubsysteme verfügen über Scrubbing-Prozesse, die die Daten von Zeit zu Zeit überprüfen und sicherstellen, dass alles in Ordnung ist.
Sobald dies erledigt ist, müssen Sie die Festplatte nicht mehr bereinigen. Wie bereits erwähnt, schadet es jedoch nicht, einen Systemlasttest durchzuführen, um sicherzustellen, dass alles so funktioniert, wie Sie es erwarten. Ich würde mich überhaupt nicht um einzelne Festplatten kümmern.
Wie bereits in den Kommentaren erwähnt, ist es wenig sinnvoll, Festplatten für Ihren speziellen Anwendungsfall zu verwenden. Wenn Sie sie herumschicken, ist es weitaus wahrscheinlicher, dass Datenfehler auftreten, die beim Einbrennen nicht vorhanden sind.
Bandmedien sind für den Versand in der Umgebung konzipiert. Sie können 250 MBit / s (oder bis zu 650 MBit / s komprimiert) mit einem einzelnen IBM TS1140-Laufwerk erzielen, das schneller sein sollte als Ihre Festplatte. Und auch größer - eine einzelne Kassette kann bis zu 4 TB (unkomprimiert) liefern.
Wenn Sie kein Band verwenden möchten, verwenden Sie SSDs. Sie können weitaus härter als Festplatten behandelt werden und erfüllen alle Anforderungen, die Sie bisher gestellt haben.
Nach all dem sind hier meine Antworten auf Ihre Fragen:
Überhaupt nicht.
Ein oder zwei Läufe.
Ein einfacher Durchlauf von, sagen wir,
shred
undbadblocks
wird genügen. Überprüfen Sie anschließend die SMART-Daten.Kein Stress ist zu viel. Sie sollten in der Lage sein, alles auf eine Diskette zu werfen, ohne dass sie explodiert.
quelle
Angesichts Ihrer Klarstellung klingt es nicht so, als ob ein Einbrennprozess für Sie von Nutzen wäre. Antriebe fallen in erster Linie aufgrund mechanischer Faktoren aus, in der Regel aufgrund von Hitze und Vibration. nicht wegen irgendeiner versteckten Zeitbombe. Ein "Einbrenn" -Prozess testet die Installationsumgebung so gut wie alles andere. Sobald Sie das Ding bewegt haben, sind Sie wieder dort, wo Sie begonnen haben.
Aber hier sind ein paar Hinweise, die Ihnen helfen könnten:
Laptop-Laufwerke sind normalerweise so ausgelegt, dass sie mehr Stößen und Vibrationen standhalten als Desktop-Laufwerke. Meine Freunde, die in Datenrettungsgeschäften arbeiten, versenden aus diesem Grund immer Daten an Kunden auf Laptop-Laufwerken. Ich habe diese Tatsache noch nie getestet, aber es scheint in ausgewählten Branchen "allgemein bekannt" zu sein.
Flash-Laufwerke (z. B. USB-Sticks) sind von allen Medien, die Sie finden, ungefähr am schlagfestesten. Es ist sogar noch unwahrscheinlicher, dass Sie während der Übertragung Daten verlieren, wenn Sie Flash-Medien verwenden.
Wenn Sie ein Winchester-Laufwerk ausliefern, führen Sie einen Oberflächenscan durch, bevor Sie es in Betrieb nehmen. Oder noch besser, setzen Sie es einfach nicht ein. Möglicherweise möchten Sie stattdessen bestimmte Laufwerke als "Versand" -Laufwerke kennzeichnen, die den gesamten Missbrauch anzeigen, auf die Sie sich für die Datenintegrität jedoch nicht verlassen. (Dh: Daten für den Versand auf das Laufwerk kopieren, nach dem Versand kopieren, sehr Prüfsummen auf beiden Seiten, so etwas).
quelle
Ihr Prozess ist falsch. Sie sollten RAID-Arrays verwenden. Wo ich arbeite, haben wir robuste Raid-Arrays erstellt, die so konzipiert sind, dass sie überall hin transportiert werden können. Das ist kein Hexenwerk. Die Stoßmontage der Laufwerke in übergroßen Gehäusen mit großen Gummi-Schwingungsdämpfern verbessert die Zuverlässigkeit erheblich. (Seagate-Konstellationslaufwerke sind als Beispiel für 300 G Schock, aber nur für 2 G Vibration ausgelegt. Nicht in Betrieb: Der Versandbehälter muss das Laufwerk durch Vibrationen isolieren. Http://www.novibes.com/Products&productID=62 oder http : //www.novibes.com/Products&productId=49 [Teile-Nr. 50178])
Sie möchten jedoch unbedingt Testfestplatten einbrennen, und so geht es weiter.
Ich habe an Systemen wie Festplatten gearbeitet und beim Einbrennen einige Probleme festgestellt, aber ...
Für beschleunigte Lebensdauertests von Leiterplatten, um Fehler hervorzurufen, ist nichts besser als einige Heiß- / Kaltzyklen. (Das Betreiben von Heiß-Kalt-Zyklen funktioniert noch besser ... es ist jedoch schwieriger für Sie, dies zu tun, insbesondere bei Festplattenbänken.)
Holen Sie sich eine Umweltkammer, die für die Anzahl der Laufwerke, die Sie gleichzeitig erwerben, eine große Rolle spielt. (Diese sind ziemlich teuer, es wäre billiger, Raid-Arrays herumzuschicken.) Sie können nicht an den Testkammern sparen, die Sie benötigen, um die Luftfeuchtigkeit zu kontrollieren und programmierbare Rampen.
Programmieren Sie zwei sich wiederholende Temperaturrampen, bis zur minimalen Speichertemperatur, bis zur maximalen Speichertemperatur, damit die Rampen steil genug sind, um den Anwendungsingenieur Ihres Festplattenherstellers zu verärgern. Bei 3 Kalt-Heiß-Zyklen in 12 Stunden sollten die Laufwerke ziemlich schnell ausfallen. Führen Sie die Laufwerke mindestens 12 Stunden lang so aus. Wenn es danach noch Arbeit gibt, werde ich überrascht sein.
Ich habe mir das nicht ausgedacht: An einem Ort, an dem ich gearbeitet habe, haben wir einen Produktionsingenieur damit beauftragt, mehr Produkte mit der gleichen Testausrüstung auszuliefern. Es gab eine enorme Zunahme von Testfehlern, aber die Zahl der Toten bei der Ankunft ist praktisch gesunken Null.
quelle
Ich bin mit allen Antworten nicht einverstanden, die im Grunde sagen: "Mach dir keine Sorgen um das Einbrennen, hab gute Backups".
Während Sie immer Backups haben sollten, habe ich gestern 9 Stunden (zusätzlich zu meiner üblichen 10-Stunden-Schicht) damit verbracht, Backups wiederherzustellen, weil das System mit Laufwerken lief, die nicht eingebrannt waren.
In einer RAIDZ2-Konfiguration befanden sich 6 Laufwerke (ZFS-Äquivalent zu RAID-6). Auf einer Box, die ungefähr 45 Tage lang lief, mussten innerhalb von 18 Stunden 3 Laufwerke sterben.
Die beste Lösung, die ich gefunden habe, ist, Laufwerke eines bestimmten Herstellers zu kaufen (nicht mischen und anpassen) und dann das mitgelieferte Tool zum Testen der Laufwerke auszuführen.
In unserem Fall kaufen wir Western Digital und verwenden die DOS-basierte Laufwerkdiagnose von einer bootfähigen ISO. Wir starten es, führen die Option aus, zufälligen Müll auf die gesamte Festplatte zu schreiben, und führen dann den kurzen SMART-Test aus, gefolgt vom langen SMART-Test. Das reicht normalerweise aus, um alle fehlerhaften Sektoren auszusortieren, Neuzuordnungen zu lesen / schreiben usw.
Ich versuche immer noch, einen vernünftigen Weg zu finden, es zu "stapeln", damit ich es auf 8 Laufwerken gleichzeitig ausführen kann. Könnte einfach 'dd if = / dev / urandom of = / dev / whatever' in Linux oder 'badblocks' verwenden.
EDIT: Ich habe einen schöneren Weg gefunden, es zu "batchen". Ich habe mich endlich daran gemacht, einen PXE-Boot-Server in unserem Netzwerk einzurichten, um eine bestimmte Anforderung zu erfüllen, und habe festgestellt, dass die Ultimate Boot-CD mit PXE gebootet werden kann. Wir haben jetzt eine Handvoll Junk-Computer, auf denen PXE gebootet werden kann, um die Laufwerkdiagnose auszuführen.
quelle
Wie wichtig ist es, eine Festplatte einzubrennen, bevor Sie sie verwenden?
Es hängt davon ab, ob.
Wenn Sie es in einem RAID verwenden, das Redundanz bietet (1, 5, 6, 10)? Nicht sehr.
Wenn Sie es eigenständig verwenden? Ein bisschen, aber es ist besser, einfach smartd oder etwas anderes zu verwenden, um es zu überwachen, zumindest meiner Meinung nach.
Dies führt natürlich zu meiner Antwort auf " Wie implementieren Sie einen Einbrennprozess? " - ich nicht.
Anstatt zu versuchen, Festplatten "einzubrennen", führe ich sie in redundanten Paaren aus und verwende Predictive Monitoring (wie SMART), um mir mitzuteilen, wann ein Laufwerk wackelt. Ich habe festgestellt, dass die zusätzliche Zeit, die für ein vollständiges Einbrennen erforderlich ist (wirklich das Ausüben der gesamten Festplatte), wesentlich teurer ist als das Beheben eines Festplattenfehlers und das Auslagern.
Wenn Sie RAID und gute Backups kombinieren, sollten Ihre Daten sehr sicher sein, auch wenn es um Kindersterblichkeit geht (oder um das andere Ende der Badewannenheilung, wenn Laufwerke im Alter sterben).
quelle
Spinrite (grc.com) liest und schreibt alle Daten auf dem Laufwerk zurück. Es ist eine gute Sache, für ein neues Laufwerk zu tun, auch wenn Sie nicht versuchen, es zum Scheitern zu bringen. Die Ausführung auf Stufe 4 dauert sehr lange, in der Regel einige Tage, wenn Laufwerke der aktuellen Größe verwendet werden. Ich sollte auch hinzufügen, dass es nicht destruktiv ist. Tatsächlich werden Daten, die sich an schlechten Stellen befinden, verschoben und wiederhergestellt. Natürlich würden Sie es niemals auf einer SSD laufen lassen.
quelle
Ich bin sicher, ein wöchentliches Benchmarking und eine Fehlerprüfung reichen aus, um Festplatten einzubrennen. Obwohl ich seit deinem Post noch nie so etwas gehört habe.
Zitiert von "6_6_6" auf Stroagereview.com
Insgesamt halte ich es für eine schlechte Idee.
BEARBEITEN: Quelle: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/
quelle
Erstens stimme ich anderen Postern zu, dass Ihr Anwendungsfall nahe legt, dass Bandlaufwerke die bessere Option sind.
Wenn dies nicht möglich ist, ist ein echtes RAID keine Option, wenn Sie über das ganze Land fliegen müssen, da Sie viel mehr Laufwerke transportieren müssen, was das Ausfallrisiko erhöht. Wie sieht es jedoch mit einem einfachen Spiegelungsschema aus, bei dem ein Laufwerk gesendet und das andere am Quellstandort belassen wird?
Wenn das Laufwerk bei der Ankunft ausfällt, kann eine neue Kopie erstellt und gesendet werden. Wenn das Laufwerk bei der Ankunft in Ordnung ist, kann das Ersatzlaufwerk erneut verwendet werden - entweder zum Senden oder zum Sichern der Originaldaten.
quelle
Sie haben nicht wirklich gesagt, warum die Laufwerke ausgeliefert werden. Ist dies nur eine Möglichkeit zum Senden von Daten, haben sie vollständige Anwendungen / Betriebssystem-Images, die auf einem PC gebootet werden können, oder etwas anderes?
Ich stimme den anderen Antworten zu, dass RAID oder Backups besser sind als Scannen, da die Gefahr besteht, dass ein Laufwerk versandt wird und mechanische Probleme auftreten.
Ein allgemeinerer Weg, dies zu formulieren, wäre "sich auf redundante Daten zu verlassen, um Fehler abzufangen und zu korrigieren" - entweder 2 Laufwerke für jeden Datensatz ausliefern oder redundante Daten auf einem einzelnen Laufwerk ausliefern. In Parchive können Sie den Daten eine definierte Redundanzstufe hinzufügen, sodass die Wiederherstellung auch dann möglich ist, wenn ein großer Teil der Daten beschädigt ist. Da Festplatten heutzutage recht billig sind, ist der Kauf einer größeren Festplatte als unbedingt erforderlich oftmals günstiger als das Scannen des Laufwerks, das Versenden eines Ersatzlaufwerks oder das Versenden von zwei Laufwerken.
Dies würde vor nicht-katastrophalen Ausfällen des Laufwerks schützen - es ist jedoch immer noch am besten, ein ausgeliefertes Laufwerk nicht erneut zu verwenden, außer zum Versand, wie zuvor vorgeschlagen, dh wie ein Band, das auf ein "echtes" Laufwerk extrahiert werden muss, das permanent ist installiert und nirgendwo versandt.
Auf diese Weise können Sie eine große Datenmenge (oder sogar Anwendungs / Betriebssystem-Images) versenden und die Auswirkung von Festplattenfehlern auf ein wirtschaftliches Niveau reduzieren.
quelle