Ich bin auf der Suche nach Inspirationen für nicht standardmäßige Anwendungen von Überwachungssystemen wie Nagios, mit denen normalerweise überprüft wird, ob HTTP reagiert usw. Ich bin gespannt, wie die Leute das einfache Nagios-Framework verwendet haben und es auf unerwartete Weise ausführen, damit ich es kann stehlen leihen sie.
monitoring
nagios
jldugger
quelle
quelle
Antworten:
Früher habe ich eine Kopie meiner Facebook-Freunde- und Twitter-Follower-Liste gespeichert und Nagios-Benachrichtigungen gesendet, wenn ich nicht befreundet / nicht verfolgt wurde.
quelle
Ich verwende Nagios, um einen Linux-Cluster mit 1100 Knoten zu überwachen. Nagios wird verwendet, um den sshd-Prozess, den SMART-Status der Festplatte, den Infiniband-Netzwerkstatus, das freigegebene Dateisystem und die Festplattennutzung zu überprüfen. Wenn einer dieser Tests fehlschlägt, wird der Knoten automatisch aus dem Produktionspool des Job Schedulers entfernt, damit er gewartet werden kann. Bisher hat dies ziemlich gut funktioniert. Bevor Nagios im Cluster implementiert wurde, hatten wir viele Beschwerden, dass Programme nicht gestartet werden könnten oder sofort abstürzen würden. Nach der Implementierung haben wir fast keine Beschwerden.
Ich verwende Nagios auch, um einige Xen-Dom-U-Instanzen zu überwachen. Wenn eine dom-U-VM abstürzen würde, würde Nagios die VM automatisch neu starten.
quelle
nicht meins, aber dies ist die kreativste Verwendung von Nagios, von der ich je gehört habe. Hut ab vor diesem Kerl!
quelle
Was genau meinst du? Ich habe ein paar Skripte geschrieben, die andere Dinge als HTTP überwachen. Ich habe sogar eine Art "URL-Inhalt" -Monitor erstellt (sehr einfache), der nur nach einem bestimmten Textblock sucht und dann, wenn weniger als 1 (0) Instanzen des Textes gemeldet werden, als "down", und wenn mehr als 1, wird als up gemeldet.
Das Schreiben von Nagios-Skripten kann mit so ziemlich jeder Sprache durchgeführt werden.
quelle
Ich sammle Leistungsdaten in rrd-Daten. Daher habe ich einige Überprüfungen durchgeführt, um mehrere Datenpunkte aus den letzten Überprüfungen zu lesen und nach Änderungen in Trends zu suchen. Diese Skripte können nützlich sein. Es ist im Grunde eine automatisierte Methode zum Lesen von Grafiken.
quelle
Vielleicht noch etwas, woran die Leute interessiert sein könnten:
Ich mache hier Backups mit Dirvish der gesamten Infrastruktur. Nachdem die Dirvish-Sicherung abgeschlossen ist, überprüfe ich die Sicherungsergebnisse mit einem kleinen Skript und sende die Ergebnisse von der Sicherungsmaschine an die Nagios-Maschine.
Auf dem Nagios-Server ist hierfür eine passive Prüfung definiert. Das vielleicht interessanteste hier: Ich habe
freshness_threshold
mit 93600 (= 26h) undcheck_command
mitcheck_dummy_args!2!'Last backup cycle too long ago'
(und natürlichcheck_freshness
mit 1) definiert. Auf diese Weise werde ich automatisch benachrichtigt, wenn ein Backup zu lange dauert oder nicht ohne Abfrage ausgeführt wurde.quelle
Neben all den üblichen und langweiligen Dingen habe ich einen Monitor, um zu überprüfen, ob es der SysAdm-Tag ist, der alle meine Benutzer sendet und alarmiert.
Ich habe auch Pläne, beim Festival einen akustischen Alarm für wirklich gefährliche Fehler zu implementieren und die Anwesenheit des Chefs in der Zentrale zu überwachen. Aber sie bezahlen mich nicht gern für die Umsetzung von Streiche
quelle
Ein Beispiel, von dem ich gehört habe, ist ein Typ, der Nagios-Checks eingerichtet hat, um sein Forum auf ungesunde Aktivitäten wie eine große Anzahl von nicht beantworteten Threads und die mittlere Zeit zwischen den Posts zu überwachen.
quelle
Hier habe ich ein SMS-Gateway mit einigen USB-Modems. Natürlich überwache ich die Modems und das Gateway selbst. Da alle unsere dort verwendeten SIM-Karten ein Kontingent von 1000 kostenlosen SMS pro Monat haben, überwache ich die Menge der bereits gesendeten SMS über das normale Webinterface unseres Mobilfunknetzbetreibers (kleines Perl-Skript mit WWW :: Mechanize). Wenn eine SIM-Karte keine kostenlosen SMS mehr senden kann, wird sie von Nagios deaktiviert. Wenn das Webinterface des Mobilfunknetzbetreibers Nagios mitteilt, dass erneut 1000 kostenlose SMS gesendet werden müssen, wird das Modem erneut aktiviert. In Verbindung mit Nagios-Grapher habe ich auch schöne Statistiken ...
quelle
Ich habe zahlreiche passive Dienste nur für den Status der Dateiaktualisierung und einen aktiven Dienst zum Generieren eines Berichts über den Dateistatus. Der aktive Dienst führt ein Skript aus, das einen Bericht ausführt und die Ergebnisse in die Befehlsdatei speichert. Auf diese Weise erhalte ich eine Benachrichtigung, wenn (1) der Bericht nicht ausgeführt werden konnte und (2) ich ein fehlerhaftes Ergebnis aller von ihm ausgeführten Dateien erhalte Anfragen gegen. Die Prüfung wird alle 5 Minuten ausgeführt, und der Dateistatus wird alle 5 Minuten aktualisiert. Es funktioniert sehr sehr gut.
Ich verwende dasselbe Konzept bei der Bestimmung von Dateien, die aus externen Quellen (http, ftp usw.) abgerufen werden sollen. Stecken Sie ein Skript mit dem erforderlichen Wiederholungsintervall in NAGIOS, das Verzeichnisse auf Remote-Ressourcen durchläuft und nach Dateien sucht, die wir abrufen müssen. Wenn es nichts findet, alarmieren Sie, wenn es etwas findet, beenden Sie OK und erledigen Sie die Arbeit, um die Pull-Anfrage in unsere Warteschlange zu stellen.
Abgesehen davon habe ich auch zahlreiche "Wie alt ist diese Datei" - oder "Wie alt ist dieses Verzeichnis" -Überprüfungen, die dumm sind, und ich verabscheue sie sehr.
quelle
Ich habe ein paar Ideen in meinem Blog veröffentlicht:
Überprüfen Sie, ob die Sicherungsdateien gültig sind
Überprüfen, ob der Webinhalt auf dem neuesten Stand ist
quelle
Wir hatten sowohl Nagios als auch Solarwinds als unsere primären Überwachungssysteme an dem letzten Ort, an dem ich ein NOC-Typ war. Solarwinds war großartig für die Überwachung der Windows-Systeme, aber es war etwas schuppig, so dass wir viel zwischen den beiden Systemen überwacht haben, damit sie sich gegenseitig überwachen. Viele Python-Skripte, die SQL-Abfragen in der Solarwinds-Datenbank ausführen, um sicherzustellen, dass sie keine veralteten Daten enthalten.
Sie können auch ein Nagios-Überprüfungsskript verwenden, um ein Software-Update auf einem Computer auszulösen und sicherzustellen, dass wir in regelmäßigen Abständen die aktuelle Version verwenden.
Auf unseren NFS-Servern gab es keinen bestimmten Satz von Bereitstellungen, die dauerhaft "korrekt" waren. Daher wurden die Dateiserver-Überprüfungsskripte so eingerichtet, dass bei jeder Änderung der Liste der exportierten Dateisysteme immer eine Warnung ausgegeben wird. Auf diese Weise wurden die Leute, die diese Maschinen betreiben, immer benachrichtigt, wenn etwas hinzugefügt oder entfernt wurde. Wenn sie zu diesem Zeitpunkt an der Maschine arbeiteten, ignorierten sie die Warnung. Wenn sie nicht wären, würden sie es reparieren. Das Konzept "Alarm bei Delta" anstelle des Konzepts "Alarm bei Status" hat dazu beigetragen, einen Teil unseres Kommunikationsaufwands für solche Dinge zu reduzieren.
Wir hatten 24-Stunden-NOC-Affen, um alles zu beobachten, daher hatten wir auch eine regelmäßige Meldung "E-Mail funktioniert", die sie planmäßig erhalten würden, und sie würden manuell in Panik geraten, wenn keine der automatischen Überwachungsmaßnahmen festgestellt hätte, dass die E-Mail defekt war. Diese Art von Dingen ist einfach als "Überprüfungsskript" einzurichten, selbst wenn ein OK-Rückgabewert aus dem Skript nicht sicher sagt, dass alles in Ordnung ist. Wenn Sie nicht über die Ersatzkörper verfügen, um dies manuell zu überprüfen, können Sie auch ein Überprüfungsskript zum Senden von E-Mails und ein Überprüfungsskript zum Überprüfen von E-Mails verwenden, die gleichzeitig funktionieren. Das Überprüfungs-E-Mail-Skript weist auf hohe Zustellungslatenzen hin. Es ist keine so vollständige Garantie dafür, dass das System durchgängig funktioniert, wie wenn jemand es tatsächlich auf seinem Blackberry und Outlook liest, aber es deckt die meisten möglichen Probleme ab.
Viele Nagios-Sachen werden wirklich ortsspezifisch sein. "Sehen Sie einen Juckreiz, kratzen Sie einen Juckreiz". Man muss nur ein praktischer Träumer sein.
quelle
Ich könnte versuchen, einen Nagios-Scheck zu schreiben, um den Armeekern der Ingenieurdaten für den örtlichen Damm zu kratzen und darauf aufmerksam zu machen. Besonders wichtig jetzt, wo ich in der Nähe der Flutebene wohne.
quelle