Wie kann ein Gast in ESX solche Probleme finden?
[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current]
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
- physisch sind die daten auf vmfs gespeichert in einem raid6-array (adaptec 5805), was glücklich zu sein scheint
- Auch der ESX-Host protokolliert keine Probleme
- Die vom Gast gemeldete Festplattengröße entspricht der bereitgestellten Festplattengröße
- Durch esx hat der Gast 9 gleiche "Laufwerke" angeschlossen und nur 2 weisen dieses Problem auf
linux
vmware-esxi
Tobi Oetiker
quelle
quelle
dd if=/dev/sdg bs=512 skip=430203455 count=1
zum erneuten Lesen oder einfachbadblocks -w -b 512 /dev/sdg 430203457 430203455
zum Durchführen eines Lese-Test-Schreib-Schreib-Zyklus, wenn Sie sich mutig fühlen.Antworten:
Ähnliches habe ich beim Backup-Volume für MS SQL in Win 2008 als Gast unter ESX 4.0 erlebt - es ist ein Raw-Volume, das von NetApp Filer verfügbar gemacht wird.
Das Gastbetriebssystem meldet (und meldet immer noch) fehlerhafte Sektoren auf diesem Volume.
Ich denke, dies geschah aufgrund zu vieler E / A-Schreibvorgänge, vorübergehender Zeitüberschreitung oder Filerüberlastung.
Es wurden keine schlechten Sektoren mehr gemeldet. NetApp "Disk Scrubing" sagt, dass alles in Ordnung ist. Es wurde kein Filerfehler gemeldet.
Aber wir werden dieses Volume trotzdem neu erstellen und sehen, ob es das behebt.
Wie wäre es mit Ihren anderen Volumes auf diesem Filer? Können Sie dieses Volume bitte mit dem Befehl "badblocks / dev / sdg" überprüfen? (Vorsicht: großer Leseaufwand)
quelle
Immerhin war es ein Hardware- / Firmware-Problem. Während der Adaptec 5805 (mit der neuesten Firmware) alle RAID6-Volumes als optimal gemeldet hat, hat er auch gemeldet, dass ein Volume "Failed Stripes" enthält. Dies scheint zu bewirken, dass ein Teil des RAID6-Volumes nicht mehr lesbar ist (was die in der Frage angegebenen Fehler verursacht). ESX scheint dies nicht direkt zu sehen, aber die Ausführung
dd if=/dev/zero of=file-on-damaged-volume
direkt auf der ESXi-Konsole endete mit einem E / A-Fehler, während noch genügend Speicherplatz auf dem Volume vorhanden war.Keine Menge von arcconf verify / verify_fix, die auf Volumes ausgeführt wird, und physische Geräte konnten etwas erkennen oder beheben ... Schließlich habe ich alle Daten vom Volume entfernt und auf der Adaptec-Ebene neu erstellt. Jetzt ist alles in Ordnung, aber mein Vertrauen in die Fähigkeit von adaptec, meine Daten zu schützen, ist stark beschädigt.
quelle