Wie verfolgen und dokumentieren * Sie * die routinemäßige Wartung?

10

Welche Software oder welches System verwenden Sie bei Serverfehlern, um Sie an die routinemäßige Wartung zu erinnern? Wie überprüfen und protokollieren Sie die verschiedenen Elemente, die Sie überprüfen sollen? Haben Sie ein internes Prozessdokument? Haben Sie jede Woche eine Cron-Mail mit Erinnerungen an die Überprüfung der Systemprotokolle?

Arbeiten Sie auch in einem Team, um die Systemwartung durchzuführen, und wenn ja, wie koordinieren Sie, wer welche Wartung durchführen wird?

Wenn Sie zur Eingabe von Aufgaben ein Fehler- / Problemverfolgungssystem verwenden, haben Sie einen Cron-Job, der wiederkehrende Aufgaben eingibt?

Zak
quelle

Antworten:

5

Ich verwende derzeit den Anforderungs-Tracker ( http://www.bestpractical.com/rt ).
Alle Wartungsereignisse erhalten ein zugehöriges Ticket in der Warteschlange "Systeme". Hinweise zu aufgetretenen Problemen, wer wann welche Arbeiten ausgeführt hat usw. werden zusammen mit den erforderlichen Genehmigungen in das Ticket eingetragen.

Momentan werden unsere wiederkehrenden Aufgaben (vierteljährliches Patchen usw.) manuell erstellt, sie können jedoch problemlos automatisiert werden (Cron-Job + E-Mail).

Die Koordination, wer welche Arbeit erledigt, ist für uns relativ einfach, da nur 2 Personen in unserer Administratorgruppe sind. Bei der Vergrößerung ist jedoch geplant, ein Hauptticket für Wartungsereignisse zu erstellen und den verantwortlichen Parteien zugewiesene Kindertickets zu verwenden, um die Arbeit zu delegieren .


Tägliche Dinge (Protokollprüfungen usw.) sind eine andere Sache: Ich habe all das auf automatisierte Prozesse ausgerichtet:

  • InterMapper überwacht den Gesamtstatus der Server (SNMP-Abfragen nach hoher Auslastung, geringem Speicherplatz usw.), die Funktionalität unserer Webschnittstellen und verschiedene andere Dinge, die auf Probleme hinweisen können.
  • Syslog-NG sammelt Protokolle von unseren Hosts und führt sie durch eine Reihe von Skripten, die auf offensichtliche Fehler prüfen. Ich habe gelegentlich ein Auge auf die Protokolle geworfen, um die Skripte auf ihre Richtigkeit zu überprüfen, aber es ist nicht regelmäßig geplant.
voretaq7
quelle
2

Durch eine ordnungsgemäß implementierte Automatisierung entfallen Aufgaben- und Checklisten. Warum möchten Sie Dinge manuell überprüfen, wenn Sie Computer haben, die die Arbeit weitaus effektiver und effizienter erledigen können?

Alles, was regelmäßig überprüft werden muss, wird vom Überwachungssystem überprüft. Routineaufgaben werden immer dann automatisiert, wenn dies praktikabel ist, und es werden Erinnerungen an die wenigen Aufgaben gesendet, die manuell ausgeführt werden müssen. Dokumentation ist eine andere Sache, aber richtig gemacht, können Ihre Computer meistens ihre eigene Dokumentation erstellen.

Hören Sie auf, nach besseren manuellen Methoden zu suchen, und suchen Sie nach besseren automatisierten Methoden, um Aufgaben zu erledigen. Die Computer sind da, um für uns zu arbeiten, nicht wir, um für sie zu arbeiten.

John Gardeniers
quelle
Gute Faustregel: Ein Systemadministrator sollte immer sowohl kompetent als auch faul sein. Der Wunsch, keine Arbeit zu leisten, führt dazu, dass gute Systemadministratoren eine gute Automatisierung implementieren.
voretaq7
Lassen Sie mich ein konkretes Beispiel geben: Ich muss nach Sicherheitspatches für Apache suchen, dann einen neuen Build generieren und ihn testen, wenn ein Patch herauskommt. Der Routineteil ist die Überwachung auf eine neue Apache-Version. Es kann nicht einfach direkt aus dem (Haupt-) Repository aktualisiert werden, da nicht die richtigen Module kompiliert wurden. Außerdem muss geprüft werden, ob die Releases überprüft wurden. Ist das sinnvoller?
Zak
Außerdem möchte ich nicht nur den neuesten Stapel der Software rollen, bis der Build die Qualitätssicherung bestanden hat. Ein Großteil der Qualitätssicherung ist automatisiert, aber nicht alles.
Zak
Und gibt es einen Grund, warum nicht alle Skripte geschrieben werden können? Automatische Überprüfung auf Updates, die Ihnen eine Warnung sendet, wenn einige verfügbar sind, gefolgt von einer Kompilierung und Installation per Skript, die zum Testen bereit ist. Lassen Sie die Maschine den Großteil der Arbeit erledigen und teilen Sie Ihnen mit, wann Ihre Aufmerksamkeit erforderlich ist.
John Gardeniers
1

Für die Projektarbeit wird es aus der Projektmanagement-App heraus gesteuert (E-Mail und Kalender sind in die Möglichkeit integriert, detaillierte Arbeiten zu dokumentieren und für bestimmte Personen zu planen).

Für Wartung, Upgrades, Korrekturen usw. verfügen wir über ein Ticketingsystem, das mehr oder weniger in unseren Change Management-Prozess integriert ist, um Anforderungen und Planungen zu bearbeiten.

Für vollständig intern betriebene Arbeiten und Arbeiten in langen Zyklen (vierteljährlich, jährlich usw.):

Erinnerungen an Dinge sind kalandriert. Es gibt eine informelle / semi-formale Dokumentation ("Wiki") für den allgemeinen Zeitplan.

Es gibt eine gewisse Menge an Anleitungen und Verfahrensdokumentationen zur Ausführung von Aufgaben, die dem gesamten Team zugänglich sind, aber die Leute haben ihre eigenen "schwarzen Bücher" und Protokolle mit Notizen und Rezepten.

damorg
quelle
1

Ein Überwachungssystem kann dabei helfen:

  • Wir dokumentieren jede Runde der monatlichen Wartung in einer Word-Dokumentdatei mit Kontrollkästchen. Jeden Monat speichern wir den Bericht in einem Ordner auf unserem NAS. Wir überwachen das Mindestalter der Datei. Wenn das Mindestalter für Dateien über 40 Tage liegt, erhalten wir einen Alarm.

  • Ein Teil unserer routinemäßigen Wartung besteht darin, ausgewählte Server und Appliances einmal im Monat neu zu starten. Wir verwenden "System Uptime" -Sensoren (SNMP / WMI) in unserer Überwachungssoftware. Wenn die Verfügbarkeit über 40 Tage liegt, erhalten wir einen Alarm.

  • Für Sicherungen überwachen wir das Mindestalter der Dateien im Sicherungsordner jedes Servers auf unserem NAS. Wenn das Mindestalter für Dateien über 10 Tagen liegt, erhalten wir einen Alarm.

Dirk Paessler
quelle
1

Ich verwende Checkpanel ( https://checkpanel.com ), um meine wiederkehrenden Wartungsaufgaben zu verwalten. Es bietet wiederverwendbare Checklisten und eine einfache Oberfläche, um die Ergebnisse jeder Prüfung zu protokollieren.

Nach dem Überprüfen eines Elements ist es nicht nur "erledigt", sondern bleibt für weitere Überprüfungen verfügbar. Jede Prüfung wird aufgezeichnet, damit Sie auf einfache Weise einen Verlauf aller vergangenen Prüfungen eines Elements überprüfen können - einschließlich optionaler Details (z. B. Fehlermeldungen für fehlgeschlagene Prüfungen).

Sie können für jeden Artikel eine Wiederholung festlegen, um sicherzustellen, dass Sie ihn mindestens einmal pro Woche / alle 2 Tage / usw. überprüfen. Es gibt eine konsolidierte Ansicht aller fälligen Artikel. Wenn Sie möchten, können Sie auch täglich eine E-Mail mit allen fälligen Artikeln erhalten.

Es gibt eine Vorlage für Serverwartungs-Checklisten, die Sie als Grundlage für Ihre eigenen Checklisten verwenden können. Andere Vorlagen enthalten Checklisten für Webanwendungen, WordPress und mehr.

Offenlegung: Ich bin der Gründer von Checkpanel.

Florian Sander
quelle