Ich habe meinen Überwachungsserver gerade zum ersten Mal seit einiger Zeit neu gestartet und Folgendes füllt den Bildschirm aus:
Jul 11 23:52:30 monit kernel: [ 25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [ 25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [ 25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [ 25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [ 25.256416] res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [ 25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [ 25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [ 25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [ 25.304430] ata1: EH complete
. . .
Jul 11 23:52:30 monit kernel: [ 25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [ 25.552462] sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [ 25.552475] sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [ 25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [ 25.552498] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Jul 11 23:52:30 monit kernel: [ 25.552529] 00 35 68 41
Jul 11 23:52:30 monit kernel: [ 25.552543] sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [ 25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [ 25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [ 25.556607] ata1: EH complete
Ich weiß bereits, dass ich die Festplatte austauschen muss (Kosten für Daten> Kosten für Festplatte), aber ich möchte nach eigenem Wissen wissen, was tatsächlich daran falsch ist.
Ja, unser Überwachungsserver hat kein RAID, nur eine Festplatte ... Schau mich nicht an ...
hard-drive
boot
dmesg
Soviero
quelle
quelle
Antworten:
Das Laufwerk verfügt anscheinend über fehlerhafte Sektoren und kann diese nicht neu zuordnen (möglicherweise, weil keine freien Sektoren mehr vorhanden sind). Die Ausgabe von
smartctl -a /dev/sda
würde Ihnen mehr Informationen über den Zustand des Laufwerks geben.quelle
cp
die Datei zu lesen) auftritt . In diesem Fall war der Schaden an der Datei in dem Sektor, der beschädigt wurde, so schwerwiegend, dass die Daten nicht einmal rekonstruiert werden konnten, sodass der "Neuzuweisungs" -Fehler tatsächlich auftrat, bevor überhaupt versucht werden konnte, die Daten an einer anderen Stelle zu speichern.Lassies Spruch "arf! Arf arf! Arf!". Was dumm ist, denn das hat nichts mit Timmy oder Brunnen zu tun . Aus diesem Grund nehmen Sie keine Sysadmin-Ratschläge von Hunden an.
Das Laufwerk gibt den Hinweis "Nicht wiederhergestellter Lesefehler - automatische Neuzuweisung fehlgeschlagen" aus. Dies bedeutet im Wesentlichen: "Ich habe versucht zu lesen, ich bin fehlgeschlagen, ich habe versucht mich zu erholen (lies den Sektor noch ein paar Mal, wende ein wenig ECC an und verschiebe die Daten nach ein Sektor, der nicht kaputt ist), und es hat nicht funktioniert ". Dies bedeutet wahrscheinlich (wie mgorven sagt), dass die Festplatte bereits überfüllt ist mit neu zugewiesenen Sektoren, da die Festplatte eine Weile abgestorben ist, aber ich denke auch, dass dies bedeuten kann, dass sie den Sektor überhaupt nicht wiederherstellen konnte (wiederholte Lesevorgänge) + ECC konnte keinen ansehnlichen Datenblock abrufen).
Wie auch immer, ja, die Fahrt ist sehr, sehr kaktusartig. Ihre Daten sehen auch nicht wirklich gesund aus.
quelle
Ich weiß, dass dies alt ist, aber nur für den Fall, dass noch jemand diesen Beitrag liest: "DD wird auch versuchen, die defekten Sektoren zu lesen" - gddrescue ist hier nützlich. Das tut es nicht (okay, aber nur einmal).
quelle
Erstellen Sie jetzt ein dd-Image oder eine rsync-Kopie dieser Festplatte ++, es sei denn, Sie verfügen über eine vollständige Sicherung, die eine bequeme Wiederherstellung dieser Box ermöglicht. Suchen Sie nach einer kompatiblen und funktionsfähigen Ersatzfestplatte.
Übrigens, UDMA / 66, ist das eine zehn Jahre alte PATA-Platte?
quelle
conv=noerror
, aber ich bin mir nicht sicher, wie gut das auf einem kaputten Dateisystem funktioniert. Wahrscheinlich nicht schlechter als das Lesen der Daten Datei für Datei, aber sicherlich nicht besser ...Wie bereits erwähnt, bedeutet dies wahrscheinlich, dass sich Ihr Laufwerk dem Ende seiner Lebensdauer nähert, jedoch nicht unbedingt sofort. Sie sollten ein
fsck
auf der Festplatte ausführen und versuchen, die Fehler zu reparieren ( Empfehlungen zum Beheben fehlerhafter Blöcke finden Sie im smartmontools-Wiki ) während länger.Sie sollten jedoch sofort loslegen
smartd
(was Teil dessmartmontools
Pakets ist) und die Berichte und / oder E-Mail-Benachrichtigungen im Auge behalten. Sie können auch eigene benutzerdefinierte Benachrichtigungen hinzufügen, indem Sie Skripte (in/etc/smartmontools/run.d/
) erstellen , die von der aufgerufen werdensmartd-runner
.quelle