Aufgrund des Hurrikans Matthew hat unser Unternehmen alle Server für zwei Tage heruntergefahren. Einer der Server war ein ESXi-Host mit einem angeschlossenen HP StorageWorks MSA60.
Als wir heute die Dinge wieder hochfuhren und uns beim vSphere-Client anmeldeten, stellten wir fest, dass keine unserer Gast-VMs verfügbar ist (alle sind als "unzugänglich" aufgeführt). Wenn ich mir den Hardwarestatus in vSphere anschaue, werden der Array-Controller und alle angeschlossenen Laufwerke als "Normal" angezeigt, aber alle Laufwerke werden als "nicht konfigurierte Festplatte" angezeigt.
Wir haben den Server neu gestartet und versucht, das RAID-Konfigurationsdienstprogramm aufzurufen, um zu sehen, wie die Dinge von dort aus aussehen. Wir haben jedoch die folgende Meldung erhalten:
Während des POST wurde eine ungültige Antriebsbewegung gemeldet. Änderungen an der Array-Konfiguration nach einer ungültigen Laufwerksbewegung führen zum Verlust alter Konfigurationsinformationen und des Inhalts der ursprünglichen logischen Laufwerke
Unnötig zu sagen, dass wir dadurch sehr verwirrt sind, weil nichts "bewegt" wurde; Nichts hat sich geändert. Wir haben einfach den MSA und den Server hochgefahren und haben dieses Problem seitdem.
Der MSA wird über ein einzelnes SAS-Kabel angeschlossen, und die Laufwerke sind mit Aufklebern gekennzeichnet, sodass ich weiß, dass die Laufwerke nicht bewegt oder umgeschaltet wurden:
---------------------
| 01 | 04 | 07 | 10 |
---------------------
| 02 | 05 | 08 | 11 |
---------------------
| 03 | 06 | 09 | 12 |
---------------------
Im Moment weiß ich nicht, welche Marke und welches Modell die Laufwerke haben, aber es sind alles 1 TB SAS-Laufwerke.
Ich habe zwei Hauptfragen / Bedenken:
Was hätte dazu führen können, dass die Geräte nur aus- und wieder eingeschaltet wurden? Ich habe natürlich die Möglichkeit, das Array neu zu erstellen und von vorne zu beginnen, aber ich bin misstrauisch über die Möglichkeit, dass dies erneut geschieht (zumal ich keine Ahnung habe, was es verursacht hat).
Gibt es in der Hölle die Chance eines Schneeballs, dass ich unsere Array- und Gast-VMs wiederherstellen kann, anstatt alles neu erstellen und unsere VM-Backups wiederherstellen zu müssen?
quelle
Antworten:
Richtig, das ist eine sehr prekäre Situation ...
Der HP Smart Array-Controller kann also eine bestimmte Anzahl von Bewegungen des physischen Laufwerks verarbeiten, bevor die Array-Konfiguration unterbrochen wird. Denken Sie daran, dass sich HP RAID-Metadaten auf den physischen Laufwerken und nicht auf dem Controller befinden ...
Der MSA60 ist ein 12-Bay-3,5-Zoll-SAS-JBOD-Gehäuse der ersten Generation. Er wurde 2008/2009 ausgelaufen. Er ist alt genug, dass er sich heute nicht auf dem kritischen Pfad einer vSphere-Bereitstellung befinden sollte.
In diesem Fall versucht der P411-Controller, Sie zu schützen. Möglicherweise haben Sie einen Fehler mit mehreren Laufwerken erlitten, einen Firmware-Fehler festgestellt, eine der beiden Controller-Schnittstellen auf der Rückseite des MSA60 verloren oder einen anderen seltsamen Fehler.
Dies klingt auch nach einem älteren Server-Setup. Daher möchte ich den betreffenden Server und die Firmware-Version des Smart Array P411 kennen.
Ich würde vorschlagen, alle Komponenten von der Stromversorgung zu trennen. Ich warte ein paar Minuten. Einschalten ... und POST-Eingabeaufforderungen sehr genau beobachten.
Die Details finden Sie in meiner Antwort hier:
Logische Laufwerke auf dem HP Smart Array P800 werden nach dem Neustart nicht erkannt
Es kann eine Option sein , ein zuvor ausgefallenes logisches Laufwerk wieder zu aktivieren, mit einer Option zu drücken
F1
oderF2
. Wenn präsentiert, versuchen Sie esF2
.quelle
Ihr werdet das nicht glauben ...
Zuerst habe ich versucht, den vorhandenen MSA neu zu starten, ein paar Minuten gewartet und dann den ESXi-Host eingeschaltet, aber das Problem blieb bestehen. Ich habe dann den Host und die MSA heruntergefahren, die Laufwerke in unsere Ersatz-MSA verschoben, sie eingeschaltet, ein paar Minuten gewartet und dann den ESXi-Host eingeschaltet. Das Problem blieb weiterhin bestehen.
Zu diesem Zeitpunkt dachte ich, ich wäre ziemlich durchgeknallt, und während der Initialisierung des RAID-Controllers gab es nichts, wo ich die Option hatte, ein ausgefallenes logisches Laufwerk wieder zu aktivieren. Also habe ich die RAID-Konfiguration gestartet, erneut überprüft, ob keine logischen Laufwerke vorhanden sind, und ein neues logisches Laufwerk erstellt (RAID 1 + 0 mit zwei Ersatzlaufwerken; genau wie vor ungefähr 2 Jahren, als wir diesen Host und eingerichtet haben Lager).
Dann habe ich den Server wieder in vSphere booten lassen und über vCenter darauf zugegriffen. Als erstes habe ich den Host aus dem Inventar entfernt und dann erneut hinzugefügt (ich hatte gehofft, alle unzugänglichen Gast-VMs auf diese Weise zu löschen, aber sie wurden nicht aus dem Inventar gelöscht). Sobald der Host wieder in meinem Inventar war, entfernte ich jede der Gast-VMs einzeln. Nachdem das Inventar gelöscht worden war, überprüfte ich, dass kein Datenspeicher vorhanden war und dass die Datenträger im Grunde bereit waren und als "Datendatenträger" warteten. Also habe ich einen neuen Datenspeicher erstellt (wieder wie vor ein paar Jahren mit VMFS). Ich wurde schließlich aufgefordert, eine Mount-Option anzugeben, und ich hatte die Option "Vorhandene Signatur beibehalten". Zu diesem Zeitpunkt dachte ich, es wäre einen Versuch wert, die Unterschrift zu behalten - wenn die Dinge nicht klappen würden, Ich könnte es immer wegblasen und den Datenspeicher neu erstellen. Nachdem ich den Vorgang des Erstellens des Datenspeichers mit der Option "Signatur behalten" abgeschlossen hatte, versuchte ich, zum Datenspeicher zu navigieren, um festzustellen, ob sich etwas darin befand - er schien leer zu sein. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk. Aus Neugier ging ich zum Host und überprüfte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und alle meine alten Gast-VMs sehen! Ich ging zurück in vCenter und scannte den Speicher erneut und aktualisierte die Konsole. Alle unsere alten Gast-VMs waren da! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind gesichert und kommunizieren erfolgreich im Netzwerk.
Ich denke, die meisten Leute in der IT-Community würden zustimmen, dass die Chancen, dass so etwas passiert, äußerst gering bis unmöglich sind.
Für mich war dies ein Wunder Gottes ...
quelle