Überwachungsstrategien für die Infrastruktur

12

In letzter Zeit war ich auf einigen der von mir bereitgestellten Drupal-Sites mit Ausfallzeiten konfrontiert. Ich möchte das Problem proaktiv angehen, anstatt auf diese Ausfallzeiten durch einen Neustart der Dienste oder des Servers selbst zu reagieren. Ich habe Informationen zu Überwachungstools wie Nagios, Munin, Cacti usw. zur Überwachung des Zustands Ihres Servers / Ihrer Infrastruktur gelesen, aber ich habe noch keines in der Produktion ausprobiert. Fast 99% der Fälle beschäftige ich mich mit Drupal, und ich möchte Vorschläge sowohl für die Überwachung auf Serverebene als auch für die Überwachung auf Drupal-Ebene (Anwendungscode) herausfinden.

Grundsätzlich möchte ich benachrichtigt werden, wenn die Serverlast hoch ist und möglicherweise auf den Täter (oder das Opfer) hingewiesen wird, damit ich fundierte Entscheidungen treffen kann. Ich würde auch gerne wissen, was die Leute für die Überwachung auf Drupal-Ebene verwenden (z. B. per E-Mail), wenn ein PHP-Fehler / eine PHP-Warnung vorliegt. (Was passiert, wenn der E-Mail-Server selbst nicht verfügbar ist?)

Dipen
quelle

Antworten:

6

Wenn Sie mehrere Drupal-Sites mit Alarmen usw. vom selben Ort aus überwachen möchten, kann ich sagen, dass Sie nicht der einzige sind. Es fängt an, eine Geschäftsnische zu werden, die nun gefüllt ist mit:

Bei beiden handelt es sich um kommerzielle SaaS-Ansätze mit kostenlosen eingeschränkten Optionen zum Testen des Dienstes.

Es gibt auch die Open Source Zabbix- Überwachungsoption mit dem Drupal-Modul http://drupal.org/project/zabbix , aber dann sollten Sie den Server selbst konfigurieren und aufbauen.

Alle diese Optionen haben ihre Drupal-Module, um Server- und Drupal-spezifische Informationen an den Monitor-Server zu senden.

AKTUALISIEREN. Munin hat auch ein spezielles Drupal- Modul mit einem 2.x-Zweig, der auf Drush basiert.

Corbacho
quelle
Ich habe neues Relikt mit Drupal ausprobiert und muss sagen, dass es die meiste Zeit wirklich umfangreich ist (xhprof ist mehr oder weniger ein guter Ersatz für Transaktionsspuren in NR, aber die Datenerfassung ist unabdingbar). Ich habe auch davon gehört, dass drupal.org Nagios zur Überwachung einführt. Vielen Dank für Ihre Antwort. Ich werde ein paar Tage warten, bevor ich es auswähle.
Dipen
5

Unabhängig davon, welchen Dienst Sie verwenden, würde ich auf jeden Fall vorschlagen, dass Sie - sofern Sie kein Vollzeit-IT-Personal haben - keine eigene Überwachung betreiben: Verlassen Sie sich auf einen Dienst, der von Ihren Servern völlig unabhängig ist. Es ist eine Sache, einen öffentlich zugänglichen Server herunterzufahren, eine andere, ihn herunterzufahren und nichts davon zu wissen, da Ihr Überwachungsserver ebenfalls heruntergefahren ist. Die meisten Überwachungsdienste enthalten alle Anforderungen, die Sie im Lieferumfang enthalten haben.

Auf die Gefahr hin, dass daraus eine Frage zur Kaufempfehlung wird, benutze ich folgenden Service für die von Ihnen angegebenen Anforderungen : Pingdom :

  • Sagt dir ob eine Seite aufsteht (natürlich)
  • Misst, wie lange es dauert, um zu antworten
  • Misst die Reaktionsfähigkeit und Verfügbarkeit auf jedem benutzerdefinierten TCP / UDP-Port
  • E-Mail-Verfügbarkeitsprüfung
  • Ermöglicht benutzerdefinierte HTTP-Anforderungen, sodass Sie verschiedene Aspekte Ihrer Anwendung testen können
  • Umfangreiches Reporting
  • Weltweite Überwachung, und alle paar Monate kommen etwa ein Dutzend weitere Überwachungsstandorte hinzu
kiamlaluno
quelle
Ich verwende bereits site24x7.com und auch pingdom (für eine andere Site) für Warnmeldungen. Ich wollte eine Überwachung, die mich proaktiv über die Ressourcennutzung oder potenzielle Probleme informiert und sich eng in die Serverumgebung integriert. Danke für deine Antwort.
Dipen
2

Dies sind einige Drupal-agnostische Vorschläge:

  • Are My Sites Up pingt Ihre Server regelmäßig an und sendet Ihnen eine E-Mail (oder eine SMS, wenn Sie das unfreie Paket erhalten), wenn Ihre Site offline ist oder nicht reagiert.
  • Load Impact ist ein weiteres großartiges kostenloses Tool, mit dem Sie Ihre Website einem Stresstest unterziehen können, damit Sie erkennen können, wann genau der Fehler auftritt.

In Bezug auf die Drupal-Anwendung selbst würde ich die Verwendung von Xdebug + Webgrind oder XHProf vorschlagen, um den Code zu profilieren und diese Frage im Auge zu behalten: Bester Weg, um die Leistung des Drupal-Stacks zu bewerten

Alex Weber
quelle
Vielen Dank, dass Sie mich über die Auswirkung der Last informiert haben. Ich habe jmeter verwendet, aber dann ist es mehr Arbeit, Ihre Testpläne usw. einzurichten. Ich hoffe, dass die Auswirkung der Last mit Drupal-authentifizierten Simulationen umgehen kann.
Dipen
1

Ich mag Pingdom für kleine / mittlere Websites, weil es nützlich ist: Es sagt Ihnen, dass aus Kundensicht etwas nicht stimmt, was umsetzbar ist. Dinge wie Load Average haben eigentlich nichts zu bedeuten, es sei denn, Sie haben einen falsch konfigurierten Stack (den Sie nicht haben sollten) oder Sie werden von Digg / Reddit gehämmert (in diesem Fall sollten Sie sowieso nichts tun können) bereit).

Aus Ted Dziubas Blog:

Ich nenne diese Art von Warnungen Cool Story, kurz Bro. Hierbei handelt es sich um Informationen, die keinen Problemstatus anzeigen und keine Aktion auslösen. Coole Geschichten sind Dinge, für die Sie nicht einmal Benachrichtigungen haben sollten. Sie verschwenden Ihre Zeit und machen Sie paranoid. Cool Story Bro Warnungen sind Dinge wie:

  • Der Lastdurchschnitt auf einem Server liegt über 20.
  • Eine Jobwarteschlange enthält mehr als X Arbeitseinheiten. Herzlichen Glückwunsch, Mist, deine Warteschlange macht genau das, was sie machen soll.
  • Einige Metriken sind größer als ein empirisch ermittelter Mittelwert. Ich persönlich werde von so einer Scheiße beleidigt.

Lesen Sie den Blog-Beitrag, es ist lustig.

Entendu
quelle
0

Ich benutze check_drupal , um verschiedene Drupal-Sites zu überwachen. Dies ist ein Nagios-Plugin, das keine Codeänderungen an einer Drupal-Site selbst erfordert. Einzige Voraussetzung ist, dass Drush auf dem Server vorhanden sein muss.

lockdoc
quelle