Es ist mir bereits zweimal innerhalb weniger Tage passiert, dass mein Server vollständig ausfällt, was bedeutet, dass http, ssh, ftp, dns, smtp im Grunde ALLE Dienste nicht mehr reagieren, als ob der Server ausgeschaltet worden wäre, außer dass er immer noch auf Ping reagiert , was mich am meisten verwirrt.
Ich habe einige PHP-Skripte, die in kurzen Bursts eine enorme Belastung (CPU und Speicher) des Servers verursachen, die von einer kleinen Gruppe von Benutzern verwendet wird, aber normalerweise "überlebt" der Server diese Bursts perfekt, und wenn er ausfällt fallen niemals mit solchen Nutzungsspitzen zusammen (ich sage nicht, dass es nicht in Beziehung gesetzt werden kann, aber es passiert nicht gleich danach).
Ich bitte Sie nicht, mir auf magische Weise die endgültige Ursache dieser Abstürze mitteilen zu können. Meine Frage lautet: Gibt es einen einzigen Prozess, dessen Tod dazu führen kann, dass alle diese Dienste gleichzeitig ausfallen? Das Lustige ist, dass alle Netzwerkdienste außer Ping ausfallen. Wenn der Server 100% der CPU durch einen Prozess verbraucht hätte, würde er auch nicht auf Ping reagieren. Wenn Apache (zum Beispiel) aufgrund eines kaputten PHP-Skripts abstürzt, wirkt sich dies nur auf http aus, nicht auf ssh und dns .... usw.
Mein Betriebssystem ist Cent OS 5.6
Welche Systemprotokolle sollte ich mir nach dem Neustart des Servers ansehen? / var / log / messages enthüllt nichts Verdächtiges.
quelle
malloc()
1 GB RAM haben, heißt das nicht, dass Sie es verwenden werden. Der Speichermanager verfolgt also, wie viel Speicher Ihr Programm für vorhanden hält und wie viel Speicher der Programm hat tatsächlich verwendet, und es funktioniert tatsächlich die meiste Zeit gut. Zumindest bis mehr als ein Programm tatsächlich alle 1 GB nutzen möchte, die es zu haben glaubt.Normalerweise handelt es sich um ein Problem mit dem E / A- oder Festplattensubsystem. Dies ist häufig mit einem extrem hohen Systemlastdurchschnitt verbunden. Zum Beispiel reagierte das in der folgenden Grafik dargestellte System nicht mehr (war jedoch pingfähig), als ein Skript schief lief, eine Reihe von Dateien sperrte und die Last auf einem 4-CPU-System auf 36 ... anstieg.
Die Dienste, die im RAM ausgeführt werden und keinen Festplattenzugriff erfordern, werden weiterhin ausgeführt ... Somit ist der Netzwerkstapel (Ping) aktiv, aber die anderen Dienste werden angehalten, wenn Festplattenzugriff erforderlich ist ... SSH, wenn auf einen Schlüssel verwiesen wird oder Passwortsuche erforderlich. SMTP wird normalerweise heruntergefahren, wenn der Lastdurchschnitt 30 oder so erreicht ...
Wenn sich das System in diesem Zustand befindet, versuchen Sie es mit einer Fernbedienung
nmap
anhand der IP- Adresse des Servers, um festzustellen, was aktiv ist.Ihre Protokollierung funktioniert wahrscheinlich nicht, wenn es sich um ein Festplatten- oder Speicherproblem handelt ...
Können Sie das Hardware-Setup beschreiben? Ist das eine virtuelle Maschine? Wie ist das Speicherlayout?
Sie möchten nicht nur protokollieren, sondern auch die Systemleistung grafisch darstellen und verstehen, wann dies geschieht. Überprüfen Sie, ob dies mit einer bestimmten Aktivität korreliert.
quelle