Was tun mit einer plötzlich nicht erreichbaren EC2-Instanz ohne Protokollierung?

7

Ich habe eine EC2 "Mikroinstanz", auf der Ubuntu 10.04 LTS von Canonical ausgeführt wird. Läuft seit 6-9 Monaten und wird selten neu gestartet (höchstens alle paar Wochen).

Ich habe gerade das gemacht, was ich für ein routinemäßiges Aptitude-Update hielt, ein Aptitude-Full-Upgrade. Als ich bemerkte, dass anscheinend einige neue -ec2-Linux-Images installiert waren, startete ich das System neu. Während es auf der Konsole neu zu starten und in den Status "Ausführen" zurückzukehren schien, kam es nicht mit den üblichen SSH- und http-Diensten zurück. Ich habe versucht, es zu stoppen und zu starten und seine elastische IP neu zuzuordnen ... keine Freude.

Das Seltsame ist, dass "Get System Log" (AWS-Konsole) ein vollständig leeres Protokoll zurückgibt. Leeren. Nichts. Nicht ein Charakter. (Zumindest ist es nach dem ersten Start-Stopp leer; vor dem Stopp enthielt es nur eine letzte Zeile zum Neustart).

Ich habe ein paar Stopp-Start-Zyklen versucht, aber keine Verbesserung.

Irgendwelche Ratschläge, was Sie als nächstes versuchen sollten, um meine Instanz wieder zum Leben zu erwecken?

timday
quelle
Ist dies eine EBS-Boot-Instanz oder ein Instanzspeicher? Was ist die AMI-ID?
Eric Hammond
1
Ich habe Ihre Frage bearbeitet, um zu verdeutlichen, dass die von Ihnen ausgeführten Ubuntu 10.04-AMIs von Canonical und nicht von Alestic (mir) erstellt wurden. Ich liste die Ubuntu AMI-IDs von Canonical oben auf Alestic.com auf
Eric Hammond,
Eine fehlerhafte Instanz wurde mit ami-311f2b45 um den 11. Februar herum erstellt. Ich habe gerade ami-c00e3cb4 verwendet, um eine neue Instanz ohne Probleme aufzurufen (siehe Antwort unten). Beide EBS unterstützt.
Tag

Antworten:

4

Ich habe in letzter Zeit das gleiche Problem. Ich bin im Allgemeinen ziemlich neu in EC2, aber mit Hilfe von Erics Blog habe ich es geschafft, das Problem zu beheben und zu beheben, obwohl ich immer noch nicht sicher bin, was es WIRKLICH war. Ich denke, es fehlt möglicherweise die Kernel-AKI für diese bestimmte AMI und ihr neues aktualisiertes Kernel-Image (übrigens, ich verwende dieselbe AMI).

  • Ich habe meine Instanz gestoppt und das Volume an das neue angehängt (läuft auf demselben AMI). Musste ein bisschen mit e2label und fstab spielen.
  • Altes Dateisystem (einschließlich dev und proc) gemountet und darauf chrootet
  • Der Kernel wurde vor der letzten Version auf die Version 1 aktualisiert, da ich keine entsprechende AKI finden konnte. Ich musste AKI manuell mit EC2-API-Tools ändern
  • Neues EBS-Volume entfernt (erste Partitionsbezeichnungen reparieren) und auf das alte Volume zurückgefahren

Ich laufe jetzt 2.6.32-318-ec2

Kann mich jemand korrigieren, wenn ich falsch liege und den fehlenden AKI als Problemquelle anzeige? Wie auch immer, es hat funktioniert und ich bin sicher, dass ich zuerst alle Upgrades auf dem Testhost testen werde, bevor ich sie auf das Produktionssystem anwende.

ne7runner
quelle
Vielen Dank; Schön zu wissen, dass es nicht nur ich ist und dass es eine rationale Erklärung gibt.
Timday
3

Meine Lösung / Wiederherstellung war:

  • Instanziieren Sie eine neue Instanz mit Ubuntu 10.04 AMI ami-c00e3cb4 (sofort aktualisiert und aktualisiert und Neustart auf Linux-Image-2.6.32-319-ec2 kein Problem).
  • Alle wichtigen Pakete neu installiert
  • Mounte einen Snapshot der alten nicht bootenden Instanz (erstellt, nachdem sie nicht mehr bootete) als Volume.
  • über die Handvoll von / etc und / var und / home von Bedeutung synchronisiert

und es ist zurück wie vorher (mit dem Vorteil, etwas weniger mürrisch zu sein).

Ich habe mich nicht darum gekümmert, eine neue Instanz mit dem Problem-Image zu booten, weil ... nun, sicherlich lebt der gesamte "Status" im Disk-Image (von dem ich nur vermuten kann, dass es zu einer Boot-bezogenen Beschädigung gekommen ist), also würde ich es nicht tun Erwarten Sie ein anderes Ergebnis.

Nur "eines dieser Dinge", denke ich?

Ich denke, dass ich in Zukunft regelmäßig und vor Kernel-Updates Schnappschüsse machen werde.

timday
quelle