Produktionsserver überwachen [geschlossen]

18

Wir haben 3 dedizierte Server, die mit openVZ in mehrere VPS aufgeteilt wurden. Wir verwenden munin, um den VPS mit den Produktionsstandorten zu überwachen, und überwachen einen der VPS, um sicherzustellen, dass der Dienst bei einem Ausfall neu gestartet wird.

Wir brauchen einen viel besseren Weg, um alle unsere Server zu überwachen. Da wir bis zu 14 VPS haben, möchten wir einen zentralen Hub, in dem wir nicht nur die von munin gesammelten Daten sehen können, sondern auch einige zusätzliche Statistiken auf die Netzwerke und Leistungen unserer Dienste.

Einige unserer Anforderungen:
- SMS-Benachrichtigung bei Fehler (Möglichkeit, bestimmte benutzerdefinierte Überprüfungen
einzurichten ) - Protokollanalyse für Apache error_log und andere.
- Muss zentral sein (dh ein Server und mehrere Knoten, die die Daten sammeln).
- Muss nicht einfach zu installieren, sondern einfach zu warten sein.
- Muss frei sein

Ich wurde auf Nagios und Splunk hingewiesen, was denkst du? Vielen Dank,

Adam Benayoun
quelle

Antworten:

17

Ich habe ein ähnliches Setup, mit Ausnahme von Xen. Ich war sehr zufrieden mit einer Kombination aus:

  • Nagios für Warnmeldungen (mit PNP für einige Lite-Grafiken und Nagviz für ein Dashboard für den Servicestatus)
  • Ganglien zur historischen Darstellung von Systemen
  • OSSEC als HIDS und ebenso wichtig als Sammler für die zentrale Protokollierung
    • Nebenbemerkung: Es gibt ein Splunk-Plugin für OSSEC, das diese beiden Tools sehr gut integriert. Ich warte darauf, dass sie es auf Splunk v4 portieren.
  • Splunk Nachdem einige der Splunk-Plugins migriert wurden, planen wir die Verwendung von Splunk mit einer Vorfilterung der Protokolle (um zu verhindern, dass die Obergrenze für die kostenlose Edition überschritten wird).

Ich hoffe, dass Ihnen das Teilen unseres Überwachungs-Setups hilft :-)

Hier sind einige nützliche Links:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

aktualisieren:

Ich habe vergessen zu erwähnen, dass wir auch das Nagios-Konfigurationslayout von Matt Simmons verwenden, das Sie hier finden: http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

Dieses Layout machte unsere Nagios-Konfiguration vernünftig und viel einfacher zu warten (Danke Matt!)

fehlerhafter Server
quelle
2
+1 für OSSEC + Splunk. Sie arbeiten sehr gut zusammen.
Sucuri
5

Ich habe mit Zabbix großen Erfolg gehabt , es erfüllt alle Ihre Punkte in einem Paket.

Alt-Text
(Quelle: zabbix.com )

Am schwierigsten wird es sein, das Apache-Protokoll zu überwachen, aber Zabbix ist erweiterbar, sodass Sie LogWatch oder ein anderes Perl-Skript verwenden können, um Daten für Sie zu erfassen.

Dave Drager
quelle
2

Ich mag OpManager und es ist kostenlos bis zu einer bestimmten Anzahl von Knoten. Funktioniert alles oben Genannte und ist ziemlich einfach zu installieren und zu warten.

ChickenMilkBomb
quelle
1

Nagios sollte eine gute Wahl sein. Zuallererst - es ist modular und erfüllt so ziemlich alle Ihre Erwartungen. Außerdem erhielt es einige schöne Auszeichnungen .

EDIT: Vergessen Sie nicht, diese Antwort zu überprüfen .

minder
quelle