Ich habe einen kleinen Ubuntu-Server zu Hause mit 2 Festplatten. Es gibt zwei Software-Raids (raid1) auf den Festplatten, die von mdadm verwaltet werden. Ich halte das für irrelevant, erwähne es aber trotzdem.
Beide Festplatten sind von Western Digital und werden seit ungefähr zwei Jahren verwendet, als eine von ihnen anfing, Klickgeräusche zu machen und starb. Ich dachte, dass es nach 2 Jahren vielleicht natürlich ist, also kaufte ich ein neues und synchronisierte die RAID-Arrays erneut. Nach etwa einem Monat starb auch der andere Antrieb.
Ich bin nicht misstrauisch geworden, da beide Laufwerke gleichzeitig gekauft wurden. Es ist nicht verwunderlich, dass beide nahe beieinander liegen. Deshalb habe ich mir ein neues gekauft.
Bisher sind 2 alte Laufwerke ausgefallen und 2 brandneue im System. Nach einem Monat starb eines der neuen Laufwerke. Zu diesem Zeitpunkt wurde es misstrauisch. Da der PC aus einigen wirklich alten Teilen zusammengesetzt wurde (denken Sie an AthlonXP), dachte ich, dass vielleicht der SATA-Controller des Motherboards der Schuldige ist. Natürlich kann man in einem alten PC wie diesem nicht einfach Teile wechseln, also habe ich ein ganzes System gekauft, neue MB, neue CPU, neues RAM. Nahm das gerade ausgefallene Laufwerk zurück, da es unter Garantie stand, und ließ es ersetzen.
Es sind also bis zu 2 fehlerhafte Laufwerke von den alten Laufwerken und 1 fehlerhaftes Laufwerk von den neuen Laufwerken. 1 Monat lang keine Probleme. Danach schlichen sich die Fehler erneut in / var / log / messages ein und mdadm meldete RAID-Array-Fehler. Ich fing an, mir die Haare auszureißen. Alles ist neu im System, es liegt an der dritten brandneuen Festplatte, es ist einfach nicht möglich, dass alle neuen Laufwerke, die ich gekauft habe, fehlerhaft waren.
Mal sehen, was noch üblich ist ... die Kabel. Okay, lange geschossen, lassen Sie uns die SATA-Kabel ersetzen. Nehmen Sie die Festplatte zurück, lächeln Sie dem Mann an der Theke zu und sagen Sie, dass ich wirklich Pech habe. Er ersetzt die Festplatte. Ich komme nach Hause, ein Monat vergeht und eine der Festplatten fällt wieder aus. Ich mache keine Witze.
Zwei der brandneuen Festplatten sind ausgefallen. Vielleicht ist es ein Fehler im Betriebssystem. Mal sehen, was das Test-Tool des Herstellers sagt. Laden Sie das Test-Tool herunter, brennen Sie es auf eine CD, starten Sie es neu und lassen Sie die Festplatten über Nacht testen. Test sagt, dass das Laufwerk fehlerhaft ist, und ich sollte alles sichern, wenn ich noch kann. Ich weiß nicht, was passiert, aber es sieht nicht nach einem Software-Problem aus, es ist definitiv etwas, das die Festplatten kaputt macht.
Ich sollte jetzt erwähnen, dass sich das ganze System in einem Schuhkarton befindet. Da es eine Menge "build your own ikea case" Zeug gibt, dachte ich, es sollte keine Probleme geben, das Ding in eine Schachtel zu werfen und es irgendwo wegzupacken. Die Box ist gut belüftet, aber ich dachte nur, dass die Laufwerke überhitzt sind. Es gibt keine andere mögliche Antwort darauf. Also nahm ich die Festplatte zurück und ließ sie (zum dritten Mal) ersetzen und kaufte Festplattenkühler.
Und gerade jetzt habe ich den Klang des Untergangs gehört. Klicken Sie auf Whizzzzzzzzz . SSH in die Box:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
dmesg Ausgabe:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Rekapitulieren:
- Keine Überhitzungsgefahr
- 6 Laufwerke sind ausgefallen, 4 davon waren brandneu. Ich bin mir jetzt nicht sicher, ob die ursprünglichen beiden fehlerhaft waren oder dasselbe erlitten haben wie die neuen.
- Abgesehen vom Betriebssystem Ubuntu Karmic, das mit Jaunty gestartet wurde, gibt es im System keine Gemeinsamkeiten. Neue MB, neue CPU, neuer RAM, neue SATA-Kabel.
- Nein, die kleinen Löcher auf der Festplatte sind nicht abgedeckt
Ich weine. Ja wirklich. Ich habe nicht das Gesicht, zum Speicher jetzt zurückzukehren, es ist nicht möglich, dass 4 Antriebe unter 4 Monaten ausfallen.
Einige Ideen, über die ich nachgedacht habe: Kann es sein, dass ich beim Partitionieren und erneuten Synchronisieren der Laufwerke etwas kaputt mache? Kann es so schlimm sein, dass es das Laufwerk physisch zerstört? (da das vom Hersteller gelieferte Tool angibt, dass das Laufwerk beschädigt ist) Ich führe die Partitionierung mit fdisk durch und verwende dieselbe Blockgröße für die Partitionen raid1 (ich überprüfe die genauen Blockgrößen mit fdisk -lu)
Ist es möglich, dass der Linux-Kernel oder mdadm oder etwas nicht mit genau dieser Marke von Festplatten kompatibel ist und sie verprügelt?
Ist es möglich, dass es der Schuhkarton ist? Versuchen Sie es woanders zu platzieren? Es ist jetzt unter einem Regal, also ist Feuchtigkeit auch kein Problem. Ist es möglich, dass ein normales PC-Gehäuse mein Problem löst (ich werde mich dann selbst erschießen)? Ich werde morgen ein Bild bekommen.
Bin ich einfach nur verflucht?
Jede Hilfe oder Spekulation wird sehr geschätzt.
Bearbeiten : Die Steckdosenleiste ist gegen Überspannung geschützt.
Edit2 : Ich bin zwischen diesen 4 Monaten umgezogen, daher ist die Möglichkeit, dass die Ursache für "schmutzigen" Strom an beiden Orten liegt, sehr gering.
Edit3 : Ich habe die Spannungen im BIOS überprüft (konnte kein Multimeter ausleihen), und sie scheinen alle korrekt zu sein, die größte Diskrepanz liegt bei den 12V, da sie 11.3 liefern. Sollte ich mir darüber Sorgen machen?
Edit4 : Ich habe das Netzteil meines Desktop-PCs in den Server gesteckt. Das BIOS meldete viel genauere Spannungswerte und hat das RAID1-Array erfolgreich wiederhergestellt, was ungefähr 3-4 Stunden in Anspruch nahm. Bekomme morgen ein neues Netzteil zum Testen damit. Fügen Sie außerdem das Bild über die Box hinzu: (Ignorieren Sie das 3. Laufwerk.)
quelle
Antworten:
Ist Ihr Netzteil auch alt? Möglicherweise ist das Laufwerk unter- oder überlastet, was den Fehler verursacht. Wenn Sie ein Multimeter haben, würde ich versuchen, die Spannung zu messen, die auf Ihren Festplatten läuft, und sie über einen bestimmten Zeitraum beobachten. Ein anderer Schuldiger kann "schmutziger" Strom sein, so dass eine USV den Strom, der in das Netzteil fließt, "säubern" kann.
quelle
Ich stimme anderen zu: Macht.
Allerdings mit einer Wendung.
ALLE Komponenten müssen GEMEINSAM geerdet sein - das Chassis ist typisch, aber in Ihrem Fall, wer weiß! Ein "treibender Boden" würde das verursachen, da bin ich mir sicher.
Sie möchten, dass alle Komponenten an einer einzigen Erdung UND an der Erdung des "Stromnetzes" Ihrer Einrichtung angeschlossen sind. Das ist wichtig.
Übrigens ist es möglich, dass Ihre alte Hardware tatsächlich noch in Ordnung ist! Ich habe festgestellt, dass Geräte, die mit einem flockigen Netzteil versorgt wurden, manchmal problemlos funktionieren, wenn eine ordnungsgemäße Versorgung gewährleistet ist.
Ich hoffe das hilft.
RT
quelle
Dies ist ein alter Beitrag, und die ursprüngliche Frage ist möglicherweise für die Person, die die Frage stellt, nicht mehr relevant. Für die spätere Bezugnahme auf Kunden, die einen preisgünstigen PC bauen, ist Power jedoch kein allumfassendes Problem bei Festplattenlaufwerken. Nach meiner beruflichen Meinung als EMC-zertifizierter Implementierungsingenieur ist es eine irreführende Antwort, ein Netzteil als alleinige verantwortliche Partei zu beschuldigen, da sich der Computer in einem Karton befindet.
Festplatten vibrieren, und obwohl es keine bestimmte vertikale oder horizontale Position gibt, die die Lebensdauer einer Festplatte erhöht oder verringert, gibt es einen Vibrationsfaktor, den eine Festplatte mit Spindeln erzeugt. Die hier gezeigten Laufwerke liegen nur in einem Karton. Dies ist ein Beispiel für Budget Engineering. Die vibrierenden Antriebe sitzen auf der Seite und erhöhen die Resonanz auf dem Plattenteller. Auch wenn dies an sich noch keine Antwort ist, können unsachgemäß montierte Festplatten zu einem Festplattenfehler führen, da ein vibrierender Plattenteller die Lese- und Schreibköpfe daran hindert, den Plattenteller korrekt zu berühren.
Stromversorgung, billige Netzteile sind für Computer im Allgemeinen immer schlecht, es ist jedoch unwahrscheinlich, dass dieses Netzteil die Festplatten und nicht andere empfindlichere Komponenten auf der Platine zerstört. Dieses System befindet sich in einer Pappschachtel, so dass die Technik und die Stromversorgung zu einem katastrophaleren Ausfall geführt haben könnten, aber nicht unbedingt zu seinem Festplattenfehler. Es ist möglich, aber in diesem Fall nicht bewiesen.
Hitze: Hitze kann eine Festplatte zerstören. Wenn sie jedoch zum Zeitpunkt des Ausfalls nicht heiß war, ist Hitze nicht der Schuldige. Eine Pappschachtel ist für einen PC oder Server keine gute Ingenieurleistung. Sie sollten Ihre Teile besser an einen Computertisch oder eine Werkbank anschrauben, da sie sonst geerdet wären.
Soft RAID und billige Laufwerke. Angesichts der auf dem Foto gezeigten Pappschachtel und alten Teile scheinen Sie Standard-Desktop-Laufwerke und ein Soft-RAID zu verwenden. Desktop-Laufwerke können auf einem RAID-Controller platziert werden. Mit zunehmender Anzahl von E / A auf der Festplatte steigt jedoch die Wahrscheinlichkeit eines Festplattenfehlers. Die in diesem Fall abgebildeten Festplatten befinden sich nicht auf einem Hardware-RAID-Controller, sondern werden zusammen mit einer Softwarekomponente auf dem Motherboard gruppiert. Dies ist nicht ideal für Festplatten. Dies erhöht die Auslastung Ihrer CPU, und es ist bekannt, dass Soft-RAIDs Fehler aufweisen und Festplatten vorzeitig abschalten. Es ist wahrscheinlich, dass das Soft-RAID diese Laufwerke vor allem getötet hat.
Vorbeugung für zukünftige Builds: Wenn Sie dies lesen und dieses alte Benutzerszenario über Google Question sehen oder was nicht:
-Stellen Sie sicher, dass Ihre Festplatten ordnungsgemäß in einem stabilen Festplattengehäuse montiert sind. Verschrauben Sie Ihre Festplatten mit mindestens 4 Festplattenschrauben oder verwenden Sie einen speziellen Festplattenschlitten, der zu Ihrem Gehäuse passt.
- Stellen Sie sicher, dass in Ihrem Fall ein ausreichender Luftstrom vorhanden ist. Festplatten in einem RAID weisen in der Regel mehr E / A auf und sind viel heißer, als wenn das physische Volume einzeln bereitgestellt wird.
- Verwenden Sie kein billiges Netzteil. Schmutzige Energie ist ein Mörder der teuren Computerteile. Stellen Sie außerdem sicher, dass Ihr Netzteil genügend Leistung zur Verfügung stellt, um die gewünschte Arbeitslast zu bewältigen.
-Verwenden Sie eine RAID-Controller-Karte! Verwenden Sie niemals das Soft-RAID auf Ihrem Motherboard. Soft-RAIDs reduzieren die Festplattenleistung und erhöhen die Wahrscheinlichkeit von Festplattenfehlern stärker als die einer RAID-Controllerkarte.
-RAID erhöht im Allgemeinen die Wahrscheinlichkeit eines Festplattenausfalls aufgrund der erhöhten E / A-Leistung auf allen Ihren Volumes. Je größer der Festplattenpool ist, der verbunden wird, desto höher ist die Wahrscheinlichkeit, dass Laufwerke ausfallen. Verwenden Sie beim RAID Ihrer Laufwerke immer Paritätslaufwerke und Hot-Spares. Sie können Ihre Daten verlieren, wenn Sie RAID 0 2-3-Festplatten verwenden. Wenn Sie 3 Festplatten haben, verwenden Sie RAID 5! 6 Festplatten in RAID 5 (4 + 1) mit einem Ersatzlaufwerk sind ideal, wenn für Ihre Laufwerke eine Garantie gilt. Wenn Sie sich keine weiteren Festplatten leisten können oder die Garantie für Ihre Festplatten abgelaufen ist, verwenden Sie kein RAID.
-Desktop-Laufwerke sind keine Enterprise-Laufwerke. Desktop-Laufwerke ähneln Enterprise-Laufwerken, sind jedoch nicht für die Verarbeitung großer Arbeitslasten mit RAID-Controllern ausgelegt. Wenn Sie Desktop-Laufwerke von Newegg kaufen und diese auf Ihrem Motherboard RAID-fähig machen, wird in Ihrem ersten Jahr wahrscheinlich mindestens ein Laufwerksfehler auftreten. Je länger Sie Ihren Computer in einem RAID betreiben, desto mehr E / A werden auf die Festplatte geschrieben und desto höher ist die Wahrscheinlichkeit, dass Ihr Volume ausfällt. Kombinieren Sie billige Laufwerke mit billigem Motherboard-Soft-RAID und Sie werden verletzt.
Es ist wahrscheinlich, dass dieser Benutzer all diese Faktoren in seinem Schuhkartonserver erlebt hat. Billiger Strom, schlechter Luftstrom, alte billige Laufwerke, die nicht richtig in ein Gehäuse eingebaut sind, und ein Motherboard-Soft-RAID ... all dies erhöht die Wahrscheinlichkeit eines Festplattenfehlers.
quelle
Ich kann mir nicht vorstellen, wie gut Sie in einem Schuhkarton lüften und kühlen? Sie sollten wirklich die 50 oder 60 Dollar für ein echtes Computergehäuse berappen?
Steckdosenleisten schützen nur vor Spannungsspitzen; Häufig auftretende Probleme bei elektronischen Geräten sind Unterspannung (Spannungsabfall) und Überspannung (Spannungsspitzen). Ebenfalls verbreitet sind EMI-Störungen - wir hatten vor einiger Zeit einen instabilen Computer, der darauf zurückzuführen war, dass sich ein Laufband auf derselben Rennstrecke befand (ich persönlich habe dies zweifelsfrei überprüft). Das Modem wird offline geschaltet und das System friert von Zeit zu Zeit ein.
Darüber hinaus wird das Netzteil im Laufe der Zeit durch ständige Störungen und Schwankungen des Netzteils beschädigt, was die Qualität der an die Elektronik gelieferten Energie beeinträchtigt.
EDIT: Stromschwankungen können auf bestimmte Stromkreise begrenzt werden. Noch wichtiger ist, dass Geräte mit hoher Stromaufnahme wie Mikrowellen, Kühlschränke, Laufbänder, Herde und ähnliches einen erheblichen Einfluss auf die Stromqualität in diesem Stromkreis haben können. Und Dinge wie Kühlschränke haben auch einen kontinuierlichen Ein- / Ausschaltzyklus, der die Leitung bräunt und spitzt, wenn der Motor ein- und ausschaltet.
Wenn Sie von demselben Energieversorgungsunternehmen bedient werden, kann es auch vorkommen, dass diese Probleme haben, die Spannung auf der ganzen Linie zu liefern. Ständig schwankende Spannungen zwischen 105 V und 125 V wirken sich nach meinem Verständnis negativ auf die Elektronik aus.
quelle
Es klingt wirklich nach Stromproblemen.
Wenn Sie Spannungsspitzen haben, funktionieren viele billige Steckdosenleisten nur einmal - und es gibt normalerweise keinen Hinweis darauf, dass sie nicht mehr schützen.
Eine gute USV könnte Abhilfe schaffen - einige der High-End-USVs erzeugen tatsächlich Strom aus den Batterien und werden kontinuierlich aufgeladen, um eine vollständig isolierte Stromversorgung zu gewährleisten. Der einzige Nachteil ist, dass sie laut sein können.
quelle
Tatsächlich drucken Festplattenhersteller die Informationen zu den Arbeitspositionen nicht auf ihre Laufwerke, aber die Festplatten auf den Seiten zu stellen, ist vollkommen in Ordnung. Das letzte Mal, als ich diese Informationen überprüfte, konnten die Laufwerke flach oder auf den Seiten liegend und in einem Winkel von bis zu 5 oder 10 Grad von diesen Positionen positioniert werden. Sie verkehrt herum zu verlegen oder die Anschlüsse nach oben oder unten zu richten, ist keine legale Position. Vor rund 15 Jahren waren die nach oben oder unten weisenden Stecker die beste Position für den Transport. Dies sind die neuesten Informationen, die ich dazu habe.
Ich habe die gleiche Art von Fehler auf einer brandneuen 500-GB-WD-Festplatte in grün, und Ihre SATA-Kabel sehen genauso aus wie meine, und ich vermute, dass sie schlecht sind.
Das Erdungsproblem ist keine schlechte Sache. Die Komponenten sollten durch korrekte Montage auf einem Metallgehäuse geerdet werden. Wenn jedoch alle Stecker und Kabel zu 100% in Ordnung sind, sollte dies kein Problem darstellen.
Natürlich kann ein schlechtes Netzteil viele schlechte Dinge für das gesamte System tun. Ich würde es mit einem neuen Netzteil so schnell wie möglich testen, vorzugsweise mit allem, was auf einem anständigen Gehäuse montiert ist.
Viel Glück
quelle
Ich bin damit einverstanden, dass schlechter Boden der wahrscheinliche Schuldige ist. Überhitzung ist jedoch eine mögliche Ursache. Wenn sich die Laufwerke heiß anfühlen, sind sie zu heiß. Fächern Sie sie auf.
quelle
Sie können überprüfen, ob sie überhitzt sind, indem Sie sich die SMART-Werte ansehen. Das Erden des Gehäuses ist nicht erforderlich, da viele Hot-Swap-Träger aus Kunststoff bestehen und nicht geerdet sind. Die Erdung über das SATA-Kabel sollte ausreichen. Wenn sie fest montiert sind, KÖNNEN sie bei Vibrationsproblemen helfen. Der Kopf berührt den Plattenteller nicht, sondern bewegt sich leicht darüber und ein Aufprall auf den Plattenteller kann dazu führen, dass winzige Partikel zerstört werden, was schließlich zu einem Absturz des Kopfes führen kann.
quelle
Sie sollten wahrscheinlich Ihre Ubuntu-Installation aktualisieren. Vor ein paar Monaten (Jahren?) Wurde ein Fehler gefunden, der in Ubuntu-Installationen zu einem erhöhten Verschleiß der Festplatte führt.
Schauen Sie sich diesen Link zu diesem Problem / Fehler an: Eine hohe Häufigkeit von Lade- / Entladezyklen auf einigen Festplatten kann die Lebensdauer verkürzen
quelle
Befinden sich neben Ihrem (völlig ungeschirmten) Schuhkarton möglicherweise große Lautsprecher, Kühlschränke, Klimaanlagen, Elektromotoren oder andere magnetische Quellen?
quelle
Ich bin damit einverstanden, dass schlechte Gründe die Ursache für Ihre Lagertragödie sein können. Ich würde die Festplatten jedoch auch enger "reparieren", da Vibrationen dauerhaften Schaden verursachen können.
quelle
Überprüfen Sie die Leistungsteiler, die die Leistung für die Laufwerklüfter aufteilen. Ein unterbrochener Anschluss kann dazu führen, dass Ihr Laufwerk in einem kritischen Moment die Stromversorgung verliert und abstürzt. Benötigen Sie auf jeden Fall einen Fall für festen Boden zwischen MB, Netzteil und HD.
quelle
Ich denke, die Festplatten auf ihren Seiten zu stehen, könnte dazu beitragen, dass sie nicht richtig funktionieren, da die Festplatten in den meisten Fällen flach in ihren Computergehäusen montiert sind.
quelle