Wie kann ich feststellen, ob eine Festplatte unter ESXi ausfällt / was bedeuten diese Fehler?

10

Ich habe einen Server mit VMware ESXi v4.1.0 348481. Er verfügt über ein Hardware-RAID10 und ein SATA-Sicherungslaufwerk. Ich habe eine VM mit dem primären Boot-VMDK im RAID10-Datenspeicher und einem 600-GB-VMDK im Datenspeicher des SATA-Sicherungslaufwerks. Die VM führt Debian Linux mit dem FreeBSD-Kernel aus und verwendet ZFS für das Sicherungslaufwerk.

BEARBEITEN: Das Laufwerk ist nicht direkt an die VM angeschlossen. Es wird als VMware-Datenspeicher verwendet, und die VM verfügt über ein VMDK im Datenspeicher des SATA-Laufwerks. Der Datenspeicher ist nicht voll (nur 65% voll)

Ich habe mich mit SSH beim Server angemeldet und festgestellt, dass das Backup der letzten Nacht und zfs listoder zpool listbeide hängen geblieben sind. Also habe ich die virtuelle Konsole in ESXi geöffnet und war traurig zu sehen:

Dieser Screenshot macht mich traurig

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Ich habe versucht, die VM neu zu starten, und ich habe die Meldung erhalten, dass das System für einen Neustart heruntergefahren wird, und diese hängt dann. (^ C erscheint, tötet aber nicht shutdown). Ich kann nicht unterbrechen oder kill -9die zpool list zfs listoder rsyncProzesse - Nichts passiert, wenn ich es versuche.

  1. Zeigt dies an, dass das Backup-SATA-Laufwerk ausfällt? Oder könnte dies nur ein ESXi-Fehler sein?
  2. Wie kann ich im vSphere-Client feststellen, ob das Laufwerk ausfällt? Ich habe keine Anzeige gesehen, alles unter Hardware Health Status sieht gut aus und ich habe nichts unter der Storage-Konfiguration gesehen.
  3. Wie soll ich von hier aus vorgehen? Sollte ich die VM nur hart neu starten?

UPDATE: Ich habe die VM gerade hart neu gestartet. Nachdem es wieder online war, war der Backup-Zpool jedoch online:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Ich neige stark zum Austausch des Laufwerks ...

Josh
quelle

Antworten:

5

Diese Fehler weisen in der Tat darauf hin, dass auf einem der SATA-Laufwerke genügend fehlerhafte Blöcke aufgetreten sind, um nicht mehr genügend Speicherplatz für die Neuzuweisung von Blöcken zu haben. Das Laufwerk ist defekt und muss ersetzt werden. Ich bin nicht sicher, wo im vSphere-Client diese Informationen angezeigt werden, aber die Protokolleinträge sind ziemlich klar.

Wenn Ihre Hardware dies zulässt, sollte ein Hot-Swap möglich sein. Andernfalls müssen Sie alles herunterfahren, um den Wechsel durchzuführen. Wenn sich diese VM nach 30 Minuten nicht selbst heruntergefahren hat, ist es Zeit, sie nur fest zu beenden. Es ist riskant, aber wenn es wirklich aufgehängt ist, gibt es nicht viel dafür.

sysadmin1138
quelle
Danke @ sysadmin1138. Obwohl diese Fehler in der VM angezeigt werden, deutet dies eindeutig auf ein echtes Hardwareproblem hin? IE ist es nicht nur eine VMware-Eigenart?
Josh
@Josh Wenn Sie das SATA-Laufwerk direkt der VM präsentiert haben, werden Sie das definitiv sehen. Bei dateisicherer Speicherung bin ich mir weniger sicher. Möglicherweise hat Ihr Datenspeicher nicht mehr genügend Speicherplatz.
sysadmin1138
Ich hätte das klarstellen sollen. Es ist ein dateisicherer Speicher. Der Datenspeicher bietet viel Speicherplatz: Es handelt sich um ein 1-TB-Laufwerk und das VMDK mit 600 GB, nichts anderes befindet sich auf der Festplatte. In beiden Fällen stimmt eindeutig etwas nicht. Wenn mir nicht jemand anderes eine klare Erklärung gibt, was dies sein könnte, werde ich das Laufwerk ersetzen.
Josh