Überprüfen Sie CentOS Server auf Festplattenfehler / Anzeichen von Fehlern

14

Wie kann man unter CentOS am besten nach Festplattenfehlern und frühen Anzeichen eines Ausfalls suchen?

inac
quelle
1
Wie häufig sollten die Kontrollen sein? täglich wöchentlich?
Inac

Antworten:

3

Ich würde empfehlen, SmartMon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) auf Ihrem Computer zu installieren. Hierbei handelt es sich um eine Software, die den Zustand Ihrer Festplatten überprüfen kann, andernfalls wird / var / log / messages oder überprüft / var / log / syslog für alle Erwähnungen von SCSI-Fehlern

Paul
quelle
smartmon scheint es, obwohl seine Statistiken besagen, dass es nur 60% der fehlerhaften Laufwerke abfängt. Wenn ich smartmon so einstelle, dass es täglich scannt, würde dies tatsächlich dazu beitragen, dass die Festplatte schneller stirbt - es ist eine Seagate 7200.10?
Inac
@inac smartmon wird HDDS helfen, schneller zu sterben? Wo hast du das gelesen? Bitte fügen Sie eine URL hinzu.
030
2
dmesg

Der Kernel protokolliert alle Diagnosemeldungen zu E / A-Geräten, sodass Sie diese Meldungen mit dem Befehl dmesg auschecken können.

Banjer
quelle
aber müsstest du das manuell ausführen oder cronjob dmesg auf vi dumpen?
Inac
entweder. Sie könnten ein Skript erstellen, um es mit "dmesg> dmesg.dump.txt" zu sichern und dieses täglich mit cron auszuführen.
Banjer
1

Sie können fsck auf dem Gerät ausführen, um nach Fehlern zu suchen.

aktualisiert
quelle
0

Wie Paul sagt, sind die SMART-Protokolle ein guter Ort, um dies zu überprüfen.

Ich würde auch empfehlen, BadBlocks auszuführen . Wenn Sie eine RAID-Karte haben, müssen Sie möglicherweise die Überwachung verwenden.

Dentrasi
quelle
0

SMART Monitoring ist ein guter Weg. Als root, smartctl -a /dev/hdawo hda das Laufwerk ist, das Sie wollen ... könnte hdb, sda usw. sein. Außerdem empfehlen wir, Ihre E-Mail-Adresse in / etc / aliases als die Person festzulegen, die die Mail von root erhalten soll.

Das ist allerdings eine sehr vage Antwort. Wenn Sie einen Server eines großen Herstellers (Dell, HP usw.) haben, stehen die Chancen gut, dass bessere Überwachungsfunktionen zur Verfügung stehen.

churnd
quelle
0

Sie können die vollständige Prüfung von partition / dev / sda1 (zum Beispiel) als versuchen

fsck -f /dev/sda1

Oder versuchen Sie es mit einem vollständigen nicht-destruktiven Schreib-Lese-Test für eine bestimmte Partition

badblocks -vn /dev/sda1
Liibo
quelle
/dev/sda1 is mounted; it's not safe to run badblocks!
030
e2fsck: Cannot continue, aborting.
030
@ 030 Auf ein Runlevel ablegen, auf dem der Hauptdatenträger nicht gemountet ist.
awiebe