Wie überwachen Sie einen Überwachungsserver?

14

Daher führen wir Groundworks (mit Nagios) unter CentOS aus, um unsere verschiedenen Server und Prozesse zu überwachen. Ich habe es so eingerichtet, dass E-Mails und SMS-Texte automatisch gesendet werden, wenn ein WARNING- oder CRITICAL-Status erreicht wird. Normalerweise funktioniert das einwandfrei. Wir hatten jedoch zweimal Probleme mit Postfix auf dem Server, auf dem Postfix den E-Mail-Versand beendet. Die letzte Zeit dauerte 4 Tage, weil keiner von uns es bemerkt hat.

Das führt mich zu einer wichtigen Frage: Wie soll ich meinen Überwachungsserver überwachen?

Bio-Gemüse
quelle
5
Quis custodiet ipsos custodes?
James L
Heh. Juvenal. Schön gespielt.
Bio-Gemüse
Wer beobachtet die Wächter? : D
Florent Courtay
1
@organicveggie, Ein Überwachungsserver ist auch ein Server ... Auf welche Probleme stoßen Sie, wenn Sie einen Überwachungsserver zur Überwachung eines Überwachungsservers verwenden?
Pacerier

Antworten:

12

Natürlich mit einem zweiten Überwachungsserver. Die zweite kann viel einfacher sein, da sie nur die erste überwachen muss. Und das sollte natürlich wiederum vom Hauptüberwachungssystem überwacht werden.

Wenn Ihre Gruppe Teil einer größeren Organisation mit separaten IT-Infrastrukturen ist, können Sie möglicherweise Vorkehrungen treffen, damit der Überwachungsdienst einer anderen Gruppe Ihren Überwachungsdienst überwacht.

Sie können auch sicherstellen, dass der Server jeden Tag eine "Es ist in Ordnung" -Nachricht sendet, und sich daran gewöhnen, danach zu suchen. (Das ist natürlich nur dann effektiv, wenn Sie nicht bereits mit Routinemeldungen überfordert sind.)

mattdm
quelle
14

Andere Leute schlagen vor, regelmäßig Nachrichten zu verschicken, die besagen, dass die Dinge in Ordnung sind, aber ich persönlich bin damit nicht einverstanden. Die Überwachung sollte leise sein, es sei denn, es liegt ein Problem vor. Sie sollte sich niemals darauf verlassen, dass ein Benutzer merkt, dass etwas nicht in Ordnung ist. Insbesondere wenn mehr als eine Person auf Warnungen reagiert, ist möglicherweise jede Person der Ansicht, dass die tägliche Meldung "Ich bin in Ordnung" bereits von der anderen Person entfernt wurde.

Wir haben einen externen Dienst (von denen es Hunderte gibt, die wir jedoch nur in unregelmäßigen Abständen verwenden ), der HTTP-Überprüfungen unseres Überwachungsservers durchführt, um sicherzustellen, dass er verfügbar ist und das Internet erreichen kann. Das ist unser Hauptanliegen bei der Überwachung. Dann überwacht unser Nagios-Server alle Nagios-Server unserer Clients.

Aber Sie sprechen einen guten Punkt an. Wir sollten wahrscheinlich eine HTTP-URL hinzufügen, die die Postfix-Warteschlange überprüft. Wenn eine ungewöhnliche Anzahl von Nachrichten angezeigt wird, was wahrscheinlich bedeutet, dass sich eine in der Warteschlange befindet, wird eine Warnung ausgelöst. Eine andere Möglichkeit wäre, verschiedene Methoden für Warnungen zu verwenden, z. B. einen Nicht-SMTP-SMS-Zustellungsagenten sowie SMTP, das wir derzeit verwenden.

In unserem Fall kann ich mich jedoch nicht erinnern, dass der Mailserver jemals gestorben ist. Natürlich sendet der Mailserver nur Nagios-Warnungen, daher ist die Konfiguration sehr einfach und ändert sich so gut wie nie.

Sean Reifschneider
quelle
2
Regelmäßige OK-Meldungen sind nicht so nützlich: Sie können eine Person nicht zuverlässig auffordern, eine Aktion auszuführen, wenn kein Stimulus vorliegt.
Tim Williscroft
@Tim: Entschuldigung, aber "Fehlen eines Stimulus" beschreibt nicht die Situation, in der eine erwartete E-Mail nicht empfangen wird. In einem solchen Fall, glaube ich, wäre ich "angeregt" zu untersuchen, warum die Nachricht nicht ankam. Aber vielleicht bin das nur ich. :)
Steven Montag
1
Ich denke, ich schreibe mit psychologischen Begriffen, die nicht bedeuten, was Sie denken, dass sie bedeuten. Die Verhaltenspsychologie und die Luftfahrtpsychologie haben den Systemingenieuren viel zu erzählen. Das Feld wurde im Zweiten Weltkrieg stark ausgebaut, um 18 bis 20-jährige Besatzungsmitglieder dazu zu bringen, hochmoderne Flugzeuge zu fliegen, ohne abzustürzen, und um weiterhin die Aufmerksamkeit auf ihre eigentlichen militärischen Aufgaben zu lenken. Das ist der Grund, warum Flugzeuge ein Master-Warnlicht haben und kein "Alles ist in Ordnung" -Licht. TLDR (Ich glaube nicht, dass dieses Wort bedeutet, was Sie denken, dass es bedeutet)
Tim Williscroft
1
Ich bin der festen Überzeugung, dass Systeme keinen Lärm verursachen sollten, wenn es nicht etwas gibt, das die Aufmerksamkeit eines Menschen erfordert. Wir haben eine begrenzte Aufmerksamkeit und Computer können uns leicht mit kleinen Dingen wie "Ich lebe!" Überwältigen. Plus, Dinge, die durchkommen, die keine Probleme anzeigen, versetzen die Menschen in den Sinn, Dinge zu ignorieren. Ich arbeite sehr hart, um sicherzustellen, dass etwas, das einem Menschen einfällt, wirklich gesehen werden muss. Ich arbeite mit jemandem zusammen, der jeden Tag alle Arten von Protokollen zu sich nimmt, die er überprüft. Natürlich ist er so beschäftigt, dass er nicht zum Mittagessen ausgehen kann ...
Sean Reifschneider
1
Ich bin damit einverstanden, dass Dienste nicht zu viele Nachrichten senden sollten, da die Leute diese dann schnell ignorieren. Wenn das Überwachungssystem jedoch ordnungsgemäß eingerichtet ist, sollten nicht viele Meldungen angezeigt werden. Natürlich haben wir eine Richtlinie zum Bestätigen von Warnungen von Groundworks / Nagios, die die Nachrichten für einen bestimmten Zeitraum effektiv stoppt. Wenn es sich um einen langfristigen Ausfall handelt, deaktivieren wir die Überwachung für das System oder den Dienst. Daher ist eine tägliche "I'm Alive" -Nachricht eigentlich ziemlich vernünftig.
Bio-Gemüse
5

Natürlich sollte auch dein Postfix überwacht werden, aber das ist ein anderes Thema;)

Ich verwende das Nagios Checker-Plugin für Firefox . Es wird immer in einer Statusleiste auf jedem Computer ausgeführt, den ich regelmäßig verwende.

Außerdem habe ich ein benutzerdefiniertes Skript auf dem externen Host, das den Nagios-Host anpingt und SMS sendet, wenn er nicht auf Pings antwortet.

Bisher (5+ Jahre) hat es geklappt (auf Holz klopfen).

Aleksandar Ivanisevic
quelle
2

Zur Überwachung der Serverüberwachung (in unserem Fall Nagios) eignet sich hervorragend der kostenlose oder grundlegende Plan von Pingdom oder alertfox.

BXAtWork
quelle
Gute Vorschläge. In diesem Fall ist unser Überwachungsserver jedoch nicht außerhalb der Firewall verfügbar. Pingdom und Alertfox funktionieren also nicht wirklich für uns.
Bio-Gemüse
1

Erste Sache: Lassen Sie es ein- oder zweimal täglich "Ich bin am Leben" -Nachrichten senden. Zweitens betreibe ich nur zu diesem Zweck eine alte Maschine, die über ein anderes GSM-Modem, eine kleine USV usw. und eine dedizierte (direkte) Verbindung zum primären Überwachungsserver verfügt. Dies hilft auch bei Punkt drei: Überprüfen Sie regelmäßig den Status Ihrer Überwachungssysteme. Das kleine Zusatzüberwachungssystem zeigt ständig die Statusseite des Primärsystems in meinem Büro an.

Sven
quelle
1

Wenn Ihr Monitoring-Server über das Internet erreichbar ist, sollten Sie ihn von einem externen Anbieter überwachen lassen (z. B. websitepulse et al.).

tex
quelle