Hardware-Festplattenfehler in ESX Guest auf einem von VMFS unterstützten Laufwerk… wie ist das möglich?

8

Wie kann ein Gast in ESX solche Probleme finden?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • physisch sind die daten auf vmfs gespeichert in einem raid6-array (adaptec 5805), was glücklich zu sein scheint
  • Auch der ESX-Host protokolliert keine Probleme
  • Die vom Gast gemeldete Festplattengröße entspricht der bereitgestellten Festplattengröße
  • Durch esx hat der Gast 9 gleiche "Laufwerke" angeschlossen und nur 2 weisen dieses Problem auf
Tobi Oetiker
quelle
1
Möglicherweise ein Fehler in der E / A-Emulationsebene? Haben Sie versucht, den SCSI-Controllertyp des Gasts zu ändern, um festzustellen, ob sich dadurch das Verhalten ändert? Gibt der Zugriff auf den angegebenen Sektor den Fehler wieder? Verwenden Sie diese Option dd if=/dev/sdg bs=512 skip=430203455 count=1zum erneuten Lesen oder einfach badblocks -w -b 512 /dev/sdg 430203457 430203455zum Durchführen eines Lese-Test-Schreib-Schreib-Zyklus, wenn Sie sich mutig fühlen.
The-Wabbit
Welche Version des Kernels haben Sie dort? Aktualisieren Sie Ihren Kernel und prüfen Sie, ob der Fehler weiterhin auftritt.
Sacx

Antworten:

1

Ähnliches habe ich beim Backup-Volume für MS SQL in Win 2008 als Gast unter ESX 4.0 erlebt - es ist ein Raw-Volume, das von NetApp Filer verfügbar gemacht wird.

Das Gastbetriebssystem meldet (und meldet immer noch) fehlerhafte Sektoren auf diesem Volume.
Ich denke, dies geschah aufgrund zu vieler E / A-Schreibvorgänge, vorübergehender Zeitüberschreitung oder Filerüberlastung.
Es wurden keine schlechten Sektoren mehr gemeldet. NetApp "Disk Scrubing" sagt, dass alles in Ordnung ist. Es wurde kein Filerfehler gemeldet.

Aber wir werden dieses Volume trotzdem neu erstellen und sehen, ob es das behebt.

Wie wäre es mit Ihren anderen Volumes auf diesem Filer? Können Sie dieses Volume bitte mit dem Befehl "badblocks / dev / sdg" überprüfen? (Vorsicht: großer Leseaufwand)

TooMeeK
quelle
1

Immerhin war es ein Hardware- / Firmware-Problem. Während der Adaptec 5805 (mit der neuesten Firmware) alle RAID6-Volumes als optimal gemeldet hat, hat er auch gemeldet, dass ein Volume "Failed Stripes" enthält. Dies scheint zu bewirken, dass ein Teil des RAID6-Volumes nicht mehr lesbar ist (was die in der Frage angegebenen Fehler verursacht). ESX scheint dies nicht direkt zu sehen, aber die Ausführung dd if=/dev/zero of=file-on-damaged-volumedirekt auf der ESXi-Konsole endete mit einem E / A-Fehler, während noch genügend Speicherplatz auf dem Volume vorhanden war.

Keine Menge von arcconf verify / verify_fix, die auf Volumes ausgeführt wird, und physische Geräte konnten etwas erkennen oder beheben ... Schließlich habe ich alle Daten vom Volume entfernt und auf der Adaptec-Ebene neu erstellt. Jetzt ist alles in Ordnung, aber mein Vertrauen in die Fähigkeit von adaptec, meine Daten zu schützen, ist stark beschädigt.

Tobi Oetiker
quelle
1
Dies ist ziemlich kohärent mit dem Sun / Oracle-Verfahren für solche Situationen . Es gibt auch diesen Adaptec-FAQ-Artikel über fehlerhafte Streifen, der Hintergrundinformationen darüber enthält, wie fehlerhafte Streifen auftreten und was getan werden kann, um sie zu verhindern.
The-Wabbit
Ja, der Sun / Oracle-Artikel hat mich auf den richtigen (traurigen) Weg gebracht. Wir hatten eine ausgefallene Festplatte in diesem Array, aber es raid6, so dass selbst dann Redundanz bestand, keine der späteren Medienprüfungen ergab Fehler mit den verbleibenden Festplatten ... auch der Adaptec-Controller hat eine BBU, so dass ich nicht wirklich sehe jede Entschuldigung für dieses Verhalten :-( Hatte noch nie solche Probleme mit unseren Areca-Controllern.
Tobi Oetiker
Ich verwende kaum Adaptec-Controller und pflege hauptsächlich LSI-Speicher, aber dies ist das erste Mal, dass ich auch auf "schlechte Streifen" stoße. Ich frage mich, ob dies etwas sehr Spezifisches für die Adaptec-Implementierung ist.
The-Wabbit