Ein unbekanntes Tool löscht unsere virtuellen Maschinen und wir können sie nicht identifizieren

18

In einer Konsolenansicht einer Windows 2008 R2-VM unter vSphere wird der folgende Bildschirm angezeigt:

Screengrab des Programms

Vorgang 2 von 2 Wischscheibe

Kann jemand raten, was dieses Programm ist?

Einige Informationen zu diesem Rätsel:

Es sind nun mehrere VMs betroffen. Das Symptom ist, dass nach dem Neustart die Meldung "Betriebssystem nicht gefunden" angezeigt wird.

  • VMs laufen auf ESXi. VMs werden in einem bestimmten Datenspeicher ausgeführt
  • Netapp NFS Mounten der Festplatte in einer Arbeitsbox zeigt keine Partitionstabelle an, konnte noch keinen Hex-Dump durchführen.
  • VM wurde nicht hart zurückgesetzt, müsste ein vom Betriebssystem initiierter Soft-Reset sein
  • Es ist KEINE ISO gemountet. Es gab keinen "Nicht-Gast" -Zugriff auf die VM, daher müsste dies RDP oder ähnliches sein
  • Backups werden über Nacht mit der netapp Backup-Software durchgeführt
  • Das fragliche NFS ist auf Back-End-Ebene (Array-Ebene) Thin-Provisioning-fähig und verfügt unmittelbar nach dem Auftreten dieser Probleme nicht mehr über genügend Speicherplatz.
Rqomey
quelle
1
Haben Sie bestätigt, dass nirgendwo ein PXE-Server konfiguriert ist, auf dem dies möglich ist?
Dan
@DAN no PXE wird beim Neustart der VM abgerufen - daher das "no os found", sofern es sich nicht um eine sehr gezielte pxe-Einrichtung handelt. Außerdem wird NFS nicht mehr
genügend
1
Ist dies auf Ihre Windows-VMs beschränkt oder auf alle diese VMs, die Sie nur auf diesem Host haben?
MDMoore313
9
Rein basierend auf dem Design des Fensters, den darin enthaltenen Zeichenfolgen und einer Handvoll ähnlicher Screenshots sieht es so aus, als ob das Tool von Acronis erstellt wurde. Hier ist ein Beispiel für ein Tool, das Acronis für Seagate erstellt hat (klicken Sie einige Male auf "Weiter", um es anzuzeigen), das sehr ähnlich aussieht.
Moshe Katz
1
Ich habe ein ähnliches UI-Layout in Acronis Disc Director gesehen. Anscheinend hat es eine "Datenträger bereinigen" -Funktion (googelt es), die ich noch nie benutzt habe. Es scheint auf Ihrem Gast zu laufen. Sie konfigurieren es über die GUI (möglicherweise hat es auch eine Kommandozeilen-Exe) und dieses Zeug passiert beim Neustart.
Daniel F

Antworten:

10

Leider sieht es so aus, als ob wir nicht auf den Grund gehen, was die Anwendung war, aber um einen gewissen Nutzen aus diesem Vorfall zu ziehen, wollte ich eine Referenzantwort erstellen. Dies ist auf VMware und Virtual Layer Management ausgerichtet. Viele Administratoren sind getrennt und können nicht schnell auf Gäste oder Speicher zugreifen, und das ist für sie :)

http://support.seagate.com/kbimg/flash/laptop/Laptop.swf scheint am ehesten mit einer tatsächlichen Anwendung übereinzustimmen, die @MosheKatz gefunden hat.

In diesem Fall sollte die Untersuchung folgendermaßen aussehen:

  • Sie bemerken, dass einige, aber nicht alle VMs abgestürzt sind. Sie vermuten, dass dies auf ein Speicherproblem zurückzuführen ist (da dies normalerweise die wahrscheinlichste Ursache ist).
  • Versuchen Sie zunächst, einen gemeinsamen Faktor zu isolieren. Haben alle abgestürzten VMs denselben Datenspeicher? In diesem Fall war dies der Fall, aber einige Computer waren in Ordnung, sodass offensichtliche Hardwareprobleme ausgeschlossen wurden.
  • Überprüfen Sie alle defekten VMs, um festzustellen, ob ein gemeinsamer Faktor (Zeit, Funktion usw.) vorliegt. In diesem Fall gab es nicht.
  • Suchen Sie nach anderen ungewöhnlichen Ereignissen. Etwas hat hier eine Fahne gehisst:

    • Der NFS-Speicher war Thin-Backed (auf Array-Ebene). Dies bedeutet, dass obwohl z. 200 GB werden den ESXi-Hosts zur Verfügung gestellt, tatsächlich sind nur 100 GB verfügbar. Dieses Wissen besitzt jedoch nur das Array. Wir haben festgestellt, dass eine Reihe von VMs angehalten wurden, da ihnen der Speicherplatz ausgegangen war. Wir waren der Meinung, dass dies die Hauptursache gewesen sein könnte. Daher bestand unsere erste Aktion darin, mehr Speicher auf dem Back-End zuzuweisen, um dies als Problem zu beheben.
  • Nachdem dies behoben war (eine einfache Änderung der Benutzeroberfläche) und die angehaltenen VMs erfolgreich neu gestartet wurden, kehrten wir zum ursprünglichen Problem zurück. Wir haben die virtuellen Festplatten von den defekten VMs auf eine funktionierende VM gemountet und festgestellt, dass sich auf den Festplatten keine Partitionstabelle befindet. Wir hatten keinen Hex-Viewer zur Verfügung, also mussten wir davon ausgehen, dass die Festplatten jetzt leer waren.

  • Das Überwachungssystem warnte vor einer neuen VM, die gerade nicht mehr reagierte. Dies war großartig, da eine Last von VMs Minuten zuvor aufgrund des Speicherplatzproblems nicht mehr reagierte. Die Tatsache, dass diese neue VM schnell gefunden wurde, war ein Zeichen für eine gute Überwachungsadministration.

  • Wir öffneten eine Konsole, überprüften den Gast und sahen den obigen Screenshot.

    • In diesem Stadium ging ich zum Serverfehler-Chatroom, um zu prüfen, ob das Programm identifiziert werden konnte, während mein Speicherkollege alle Protokolle und Ereignisse der virtuellen Ebene überprüfte, um sicherzustellen, dass in unserem Bereich keine Speichervorgänge ausgeführt wurden.
  • Wir hätten die VM anhalten sollen, die Suspend-Datei ausschreiben und den Dump analysieren müssen, um festzustellen, ob das ausgeführte Programm identifiziert werden konnte. VM anhalten, um PDF VMware KB zu kernen

Letztendlich wussten wir, dass Tools für die virtuelle Infrastruktur sich nicht innerhalb eines Gasts gemeldet hätten, wie oben beschrieben. Es konnte festgestellt werden, dass kein ISO bereitgestellt und keine Ereignisse für die VM protokolliert wurden. Wir konnten sehen, dass die VM nicht "hard power cycled" war, sondern nur einen sanften Neustart (dies ist für die zugrunde liegende Infrastruktur unsichtbar). Wir wussten, dass es keine Speicherseite war, da wir das bereits ausgeschlossen hatten. Wir hatten den Verdacht, dass dies nicht automatisiert war, da dies innerhalb weniger Stunden auf bestimmten VMs geschah. Wir vermuteten, dass es nicht böswillig war, da die Konsole "Disk Wipe" meldete, wenn dies der Fall war :)

Die Schlussfolgerung war also, dass ein Benutzer das Löschen der Festplatte initiierte. Das ist soweit meine Untersuchung ging, aber ich hoffe, Sie fanden es nützlich.

Stunden gelernt:

  • Sichern und testen Sie Ihre Wiederherstellungen
  • Stellen Sie sicher, dass alle Benutzer, insbesondere Administratorbenutzer, wissen, dass sie in einer Thin Provisioning-Umgebung arbeiten, und vermeiden Sie das Formatieren von Schreibdatenträgern (z. B. das Schreiben von Lasten von Einsen)
  • Verfügen Sie über ein gutes Überwachungssystem.
  • Und eine neue für mich: Halten Sie in jeder großen virtuellen Umgebung eine VM mit Tools bereit, auch wenn sie ausgeschaltet ist, und installieren Sie Diagnosetools. Leistung, Netzwerkspeicher. Wenn dies verfügbar wäre, hätten wir einen Hex-Dump auf die beschädigte Festplatte mounten und durchführen können, um zu sehen, ob sie wirklich leer ist oder nur eine MBR fehlt. Wir hätten auch sehen können, ob es mit Einsen geschrieben wurde.
Rqomey
quelle
-1

Ich denke, Ihr Problem ist eine standardmäßige VMware-Funktion zur Speicherplatzrückgewinnung.

Dieser Artikel kann Ihnen helfen: Fragen zu platzsparenden virtuellen Laufwerken zu klären

doc
quelle
Hi @ Doc, Danke für die Rückmeldung, ist es aber nicht. Dies ist eine In-Guest-Operation, Un-Maps usw. sollten nicht destruktiv sein und werden nicht auf diese Weise über ein Konsolenfenster gemeldet
Rqomey