Ich habe einige Nachforschungen über Nagios, Opennmen und Zenoss angestellt, bin aber nicht sicher, ob ich gefunden habe, wonach ich suche.
Die Hauptantriebskraft für mich ist derzeit die Überwachung von Backups. Dies umfasst MySQL, MSSQL und eventuell einige Dateisystem-Backups.
Wir haben ein Tool, das den Sicherungsprozess für diese verschiedenen Systeme abschließt und Statistiken sammelt. Also, Gegenstände wie:
- Anzahl der gesicherten Datenbanken
- Größe der Datenbank-Sicherungsdatei
- Größe der komprimierten Datenbank-Sicherungsdatei
- Zeit für ein Backup
- Zeit, die Datei zu komprimieren
Ich möchte in der Lage sein, A) Benachrichtigungen zu erhalten, wenn die Jobs nicht gemäß Zeitplan ausgeführt werden. B) Schwellenwerte für die Statistiken festlegen zu können, die Benachrichtigungen auslösen würden. C) Ich möchte in der Lage sein, Trends zu erstellen und die Statistiken grafisch darzustellen
Ich plane, diese Informationen über einen HTTP-POST an die Überwachungsanwendung zu senden. Die Überwachungsanwendung kann sie auch aus einer Protokolldatei abrufen.
Wir werden jedoch andere Prozesse mit anderen "willkürlichen" (aus Sicht des Überwachungssystems) Statiken haben, die überwacht und trendiert werden sollen, daher ist Flexibilität sehr wichtig.
Das Tool oder die Tools sollten auch in der Lage sein, die Netzwerkschnittstellen, die Serverlast usw. allgemein zu überwachen und zu überwachen. Sobald die Sicherungsüberwachung eingerichtet ist, möchten wir auch diese Elemente einbeziehen.
Vielen Dank.
Follow-up :
Ich habe beschlossen, Folgendes in der angegebenen Reihenfolge zu versuchen:
- Zabbix: schien eher ein "One-Stop-Shop" als die anderen zu sein und war in Ubuntu Lucid RC einfach zu installieren
- opsview
- Nagios mit Nagvis, pnp4nagios, Nagiosgraph
- Kakteen mit NPC-Plugin
- Munin: ein wenig von der Einfachheit gezeichnet, aber dies könnte sich auf lange Sicht als Segen erweisen
Werde zurückschicken, sobald ich eine Entscheidung getroffen habe, kann es eine Weile dauern, bis das passiert.
quelle
Dies sollte mit zabbix ziemlich einfach einzurichten sein.
Das Festlegen von benutzerdefinierten (und sehr leistungsfähigen) Schwellenwerten ist einfach. Sie können einen beliebigen Ausdruck schreiben. So etwas wie "Benachrichtigen Sie mich, wenn mehr als 3 dieser 5 Server keine erfolgreiche Sicherung hatten" ist möglich. Sie können auch 6 verschiedene Schweregrade und Eskalationen verwenden, um flexible Benachrichtigungen und Warnungen zu erhalten.
zabbix verfügt über umfassende Funktionen zur Datenspeicherung und -visualisierung - alle Daten werden in einer Datenbank gespeichert, und um eine einzelne Metrik grafisch darzustellen, benötigen Sie keine Konfiguration - Sie erhalten lediglich "kostenlos" ein Diagramm dafür. Für die Langzeitlagerung und den Trend werden Durchschnittswerte von einer Stunde berechnet.
Es gibt mehrere Möglichkeiten, um Ihre Daten zu Backups in zabbix zu übertragen. Sie können es aus Dateien lesen, Sie können benutzerdefinierte Befehle starten, Sie können es mit dem Befehlszeilenprogramm zabbix_sender vom überwachten Computer übertragen ... und es gibt möglicherweise nur wenige weitere mögliche Ansätze.
Das Erweitern ist einfach - jeder benutzerdefinierte Befehl, der Daten zurückgibt, kann zum Sammeln, Speichern und Visualisieren dieser Daten verwendet werden.
Natürlich ist eine allgemeine Überwachung von Betriebssystemen, Anwendungen, snmp- und ipmi-Geräten usw. möglich.
quelle
Ausführung
Backups werden von backupninja orchestriert . Ich benutze es nur als Wrapper für meine Bash-Skripte - um ein einziges Backup-Protokoll zu haben. Jedes Skript beginnt mit
Daher erhalte ich Fehler in den Protokollen, wenn einer der Befehle [z. B. mysqldump oder rsync] fehlschlägt.
Alle Backups landen im RDIFF- Repository, sodass ich n Tage mit Inkrementen habe.
Alle Backups werden mit rsync an den zentralen Speicherserver übertragen.
Auf dem Speicherserver werden alle Sicherungen täglich überprüft und nach erfolgreicher Überprüfung der Daten auf der lokalen Festplatte auf ein externes USB-Laufwerk kopiert.
Nachprüfung
backupninja.log auf allen Servern wird von nagios überwacht. Ich überprüfe, ob sie nur DEBUG- und INFO-Nachrichten enthalten. alles andere löst Alarm aus.
Jedes Backup "berührt" eine Testdatei, deren Vorhandensein und Aktualität auf dem zentralen Backup-Repository-Server mit Nagios überwacht wird.
Zusätzlich werden kritischere SQL-Dumps auf ihre Größe [nicht nur Frische] und Vollständigkeit überprüft [z. B. am Ende von MySQL-Dumps erwarte ich einen neuen Zeitstempel
Alle rdiff-Archive werden täglich überprüft, bevor Daten mit dem USB-Laufwerk synchronisiert werden, und dann erneut, nachdem sie synchronisiert wurden. Selbst wenn die nächtliche Übertragung unterbrochen wird, habe ich ein konsistentes Repository nur auf dem USB-Laufwerk. Das Ergebnis der Überprüfung wird in einer Datei protokolliert, deren Inhalt und Aktualität von Nagios überprüft wird.
USB-Festplatten werden wöchentlich gedreht und für alle Fälle offline gespeichert. Dies mag für größere Datenmengen übertrieben sein, funktioniert aber gut für ~ 300 GB langsam wechselnder Dateien / Dumps.
Trends
Ich benutze ein einfaches benutzerdefiniertes Munin- Plugin, um die Größe von Diff / Daten für jedes Rdiff-Repository zu zeichnen.
Die Ausführungszeit kann in den Backupninja-Protokollen überprüft werden, aber im Moment kümmere ich mich nicht darum.
quelle
Nagios können Trends machen, aber Sie müssen perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) in Ihrem Plugin ausgeben . Wenn Sie ein pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start verwenden, wird alles für Sie grafisch dargestellt.
Ich habe festgestellt, dass die Verwendung von opsview http://www.opsview.org/ viel einfacher ist als die Konfiguration von Nagios und pnp4nagios. Insbesondere, wenn Sie der einzige Linux-versierte Administrator bei der Arbeit sind. Opsview ist Nagios mit einem großartigen Webui, das fast alle Aktionen über den Webbrowser ermöglicht. Da es sich um Nagios handelt, können Sie alle Nagios-Plugins verwenden, die Sie in der Vergangenheit verwendet haben. Tolles Werkzeug.
quelle
Nagios für Warnungen und Cacti für Grafiken sowie einige Shell- oder Perl-Skripte machen genau das, was Sie wollen. Wenn Sie beide kombinieren, können Sie so ziemlich alles tun, je nachdem, wie viel Aufwand Sie bereit sind.
quelle
Ich empfehle OpenNMS . Das Paket ist vollständig Open Source, wird aktiv unterstützt und regelmäßig erweitert. Als Referenz habe ich in ihrem Wiki Konfigurationsinformationen zur Überwachung von Symantec Backup Exec gefunden .
Von ihrer Website ..
Offenlegung: Ich habe hier kein kommerzielles Interesse, aber der Eigentümer der OpenNMS Group , der oben genannten "Organisation für kommerzielle Dienstleistungen, Schulungen und Support", ist ein Freund von mir.
quelle
Dies könnte leicht mit Circonus ( http://circonus.com/ ) geschehen . Wir importieren solche Metriken routinemäßig mit der Resmon XML-DTD.
quelle