Daher führen wir Groundworks (mit Nagios) unter CentOS aus, um unsere verschiedenen Server und Prozesse zu überwachen. Ich habe es so eingerichtet, dass E-Mails und SMS-Texte automatisch gesendet werden, wenn ein WARNING- oder CRITICAL-Status erreicht wird. Normalerweise funktioniert das einwandfrei. Wir hatten jedoch zweimal Probleme mit Postfix auf dem Server, auf dem Postfix den E-Mail-Versand beendet. Die letzte Zeit dauerte 4 Tage, weil keiner von uns es bemerkt hat.
Das führt mich zu einer wichtigen Frage: Wie soll ich meinen Überwachungsserver überwachen?
Antworten:
Natürlich mit einem zweiten Überwachungsserver. Die zweite kann viel einfacher sein, da sie nur die erste überwachen muss. Und das sollte natürlich wiederum vom Hauptüberwachungssystem überwacht werden.
Wenn Ihre Gruppe Teil einer größeren Organisation mit separaten IT-Infrastrukturen ist, können Sie möglicherweise Vorkehrungen treffen, damit der Überwachungsdienst einer anderen Gruppe Ihren Überwachungsdienst überwacht.
Sie können auch sicherstellen, dass der Server jeden Tag eine "Es ist in Ordnung" -Nachricht sendet, und sich daran gewöhnen, danach zu suchen. (Das ist natürlich nur dann effektiv, wenn Sie nicht bereits mit Routinemeldungen überfordert sind.)
quelle
Andere Leute schlagen vor, regelmäßig Nachrichten zu verschicken, die besagen, dass die Dinge in Ordnung sind, aber ich persönlich bin damit nicht einverstanden. Die Überwachung sollte leise sein, es sei denn, es liegt ein Problem vor. Sie sollte sich niemals darauf verlassen, dass ein Benutzer merkt, dass etwas nicht in Ordnung ist. Insbesondere wenn mehr als eine Person auf Warnungen reagiert, ist möglicherweise jede Person der Ansicht, dass die tägliche Meldung "Ich bin in Ordnung" bereits von der anderen Person entfernt wurde.
Wir haben einen externen Dienst (von denen es Hunderte gibt, die wir jedoch nur in unregelmäßigen Abständen verwenden ), der HTTP-Überprüfungen unseres Überwachungsservers durchführt, um sicherzustellen, dass er verfügbar ist und das Internet erreichen kann. Das ist unser Hauptanliegen bei der Überwachung. Dann überwacht unser Nagios-Server alle Nagios-Server unserer Clients.
Aber Sie sprechen einen guten Punkt an. Wir sollten wahrscheinlich eine HTTP-URL hinzufügen, die die Postfix-Warteschlange überprüft. Wenn eine ungewöhnliche Anzahl von Nachrichten angezeigt wird, was wahrscheinlich bedeutet, dass sich eine in der Warteschlange befindet, wird eine Warnung ausgelöst. Eine andere Möglichkeit wäre, verschiedene Methoden für Warnungen zu verwenden, z. B. einen Nicht-SMTP-SMS-Zustellungsagenten sowie SMTP, das wir derzeit verwenden.
In unserem Fall kann ich mich jedoch nicht erinnern, dass der Mailserver jemals gestorben ist. Natürlich sendet der Mailserver nur Nagios-Warnungen, daher ist die Konfiguration sehr einfach und ändert sich so gut wie nie.
quelle
Natürlich sollte auch dein Postfix überwacht werden, aber das ist ein anderes Thema;)
Ich verwende das Nagios Checker-Plugin für Firefox . Es wird immer in einer Statusleiste auf jedem Computer ausgeführt, den ich regelmäßig verwende.
Außerdem habe ich ein benutzerdefiniertes Skript auf dem externen Host, das den Nagios-Host anpingt und SMS sendet, wenn er nicht auf Pings antwortet.
Bisher (5+ Jahre) hat es geklappt (auf Holz klopfen).
quelle
Zur Überwachung der Serverüberwachung (in unserem Fall Nagios) eignet sich hervorragend der kostenlose oder grundlegende Plan von Pingdom oder alertfox.
quelle
Erste Sache: Lassen Sie es ein- oder zweimal täglich "Ich bin am Leben" -Nachrichten senden. Zweitens betreibe ich nur zu diesem Zweck eine alte Maschine, die über ein anderes GSM-Modem, eine kleine USV usw. und eine dedizierte (direkte) Verbindung zum primären Überwachungsserver verfügt. Dies hilft auch bei Punkt drei: Überprüfen Sie regelmäßig den Status Ihrer Überwachungssysteme. Das kleine Zusatzüberwachungssystem zeigt ständig die Statusseite des Primärsystems in meinem Büro an.
quelle
Wenn Ihr Monitoring-Server über das Internet erreichbar ist, sollten Sie ihn von einem externen Anbieter überwachen lassen (z. B. websitepulse et al.).
quelle