Ursachenanalyse durchführen

9

Ich möchte mehr darüber erfahren, wie eine Ursachenanalyse durchgeführt wird. Unsere Abteilung fordert den Benutzer mehrmals auf, einen Neustart (das Windows XP-System) durchzuführen, wodurch eine Reihe von Problemen "behoben" werden. Wenn ich es eilig habe (und manchmal stündlich bezahlt wird, trägt dies dazu bei), könnte ich versuchen, eine Problemumgehung zu finden, um das Problem schnell zu lösen, anstatt tatsächlich eine Ursachenanalyse durchzuführen.

Die meiste Zeit suche ich in Protokolldateien oder in der Ereignisanzeige nach diesen Informationen. Manchmal verwende ich die Sysinternals-Tools oder starte gelegentlich einen Paket-Sniffer. Ich benutze die Sysinternals-Programme wahrscheinlich nicht so oft, wie ich sollte. Einige spezifische Einblicke, wie Sie welche dieser Tools verwenden, wann und warum, wären ebenfalls hilfreich.

Ich weiß, dass dies eine weit offene Frage ist, aber können Sie bitte kurz Ihre Methodik, Werkzeuge usw. erläutern, die Sie verwenden? Es sieht so aus, als würden viele Administratoren von SF einen detaillierteren Prozess verwenden, über den ich gerne mehr erfahren würde. Wenn dies hilft, die Frage einzugrenzen, würde mich am meisten an Tools, Tipps, Tricks usw. interessieren, die für Windows-Server und -Clients in einer AD-Umgebung relevant sind.

jftuga
quelle

Antworten:

5

Das Herausfinden der Hauptursache eines Problems hängt vom Problem ab. Ihr anfänglicher Instinkt, sich Protokolldateien / sysinternale Tools / Paket-Sniffer anzusehen, ist im Allgemeinen korrekt.
Ich würde hinzufügen, dass das MS Malicious Software Removal Tool und ein gutes AV-Programm auf Windows-Systemen ausgeführt werden (und sichergestellt wird, dass sie nicht über CyberDefender oder andere AV-Trojaner-Malware verfügen.

Die Leute bei Stack Exchange sind Befürworter der "5 Whys" -Methode ( http://en.wikipedia.org/wiki/5_Whys , auch dieses schöne kurze PDF, das es in Aktion zeigt ). Es ist ein ziemlich wertvolles Werkzeug für die Ursachenanalyse.


Darüber hinaus male ich zwei große Kategorien und einige der Fragen, die ich normalerweise stelle / Dinge, die ich überprüfe:

Geheimnisvolles Verhalten, das nicht mit dem Netzwerk zusammenhängt,
z. B. "Word stürzt immer wieder auf mich ab"

Grundlegende Fragen:

  1. Was hat sich geändert?
    (Nehmen Sie nicht "nichts" als Antwort - es ist die erste Lüge. Neue Software, Patches usw. zählen alle.)
  2. Was hast du gemacht, als du das Problem hattest?
    (Versuchen Sie hier so viele Details wie möglich zu extrahieren - in meinem obigen Beispiel "Ich habe den Hotkey zum Einfügen von Initialen gedrückt und das Programm ist abgestürzt")
  3. Hat es jemals zuvor funktioniert?
    (Wenn ja, schauen Sie sich die Dinge aus (1) oben an.)
  4. Können Sie das Problem auf Ihrem System reproduzieren?
    (Wenn ja, ist dies ein gutes Zeichen: Ein Anruf beim technischen Support beim Anbieter kann hilfreich sein. Wenn nicht, müssen Sie sich für den Rest dieser Fragen das System des Benutzers ansehen.)
  5. Was unterscheidet die Benutzerumgebung von Ihrer Umgebung?
  6. Ist die Hardware des Benutzers verdächtig? (Führen Sie einen Speichertest durch, suchen Sie auf der Festplatte nach SMART-Fehlern usw.)
  7. Wenn Sie so weit gekommen sind (Hardware auschecken, Software auschecken, keine Viren, keine Malware), besuchen Sie den Benutzer für einen Tag. Beobachten Sie ihre Arbeitsgewohnheiten.
    Mein Unternehmen hatte einmal eine mysteriöse Systemblockierung, die sich auf das Klicken mit der Maus mit einer bestimmten Frequenz bezog (Wir wissen immer noch nicht warum, aber wir mussten einen Benutzer dabei beobachten und einen Tag lang üben, um reproduzieren zu können es zuverlässig)

Probleme im Zusammenhang mit dem Netzwerk

Vieles davon ist ähnlich, aber mit einigen spezifischeren Anleitungen.

  1. Was hat sich geändert?
    (Ja, du fängst immer dort an)
  2. Was ist kaputt?
    • Können Sie Webseiten erreichen? Ist es nur einer, der unten ist? Wenn ja, ist es für alle oder nur für Sie unten ?
    • Können Sie im Internet mit Namen pingen?
      Wie wäre es mit IP? Wie weit kommt die Traceroute?
  3. Wann ist es kaputt?
    • Immer die gleiche Tageszeit?
    • Für einen kurzen Zeitraum alle N Tage?
    • Zufällig (ist es WIRKLICH zufällig? Zeichnen Sie es in einen Kalender ...)
  4. Hat der Remote-Standort etwas Seltsames?
    • Schauen Sie sich DNS an - Wenn es sich um ein Round-Robin-Verfahren handelt, kann es zu einem Bruch auf der Remote-Seite kommen
    • Sprechen wir über das andere Ende eines VPN? Was ist mit dem VPN los (Protokolle!)?
  5. Hat die lokale Site etwas Seltsames?
    • Überprüfen Sie Ihre lokale Firewall
    • Überprüfen Sie alle "Filtersoftware"
  6. Erkundigen Sie sich bei Ihrem ISP, ob Probleme bekannt sind
  7. Überprüfen Sie Websites wie http://www.internetpulse.net/ auf bekannte netzwerkweite Probleme
  8. Überprüfen Sie den Computer des Benutzers
    (TCP-Einstellungen usw. - Normalerweise nicht das Problem, aber manchmal.)
voretaq7
quelle
1

Zusätzlich zu den bisher hervorragenden Antworten möchte ich hinzufügen:

  • Identifizieren Sie das Datum und die Uhrzeit des Ausbruchs des Problems. Dies mag offensichtlich erscheinen, aber ich habe viel zu viele Probleme gesehen, bei denen dies nicht dokumentiert wurde und später falsche Annahmen getroffen wurden. Dies korreliert gut mit dem Schritt "Was hat sich geändert?".

  • Ist das Problem reproduzierbar oder zeitweise? Dies ist kritisch, da reproduzierbare Symptome viel einfacher und schneller zu beheben sind als solche, die zeitweise auftreten. Wenn es reproduzierbar ist, stellen Sie sicher, dass die Schritte dokumentiert sind.

  • Identifizieren Sie die Symptome. Beachten Sie, dass wir zwischen "Symptom", das eine Manifestation der Grundursache ist, und dem tatsächlichen Problem / der Grundursache unterscheiden.

    1. Gibt es andere Aktivitäten, die das Symptom reproduzieren können?
    2. Welche anderen Symptome gibt es?
    3. Können wir eine Aktivität identifizieren, die dazu führt, dass das Problem auftritt, wenn es zeitweise auftritt?
    4. Unter welchen Umständen können wir das Auftreten des Symptoms verhindern? Tritt das Problem nur auf, wenn Sie mit einem Netzwerkkonto angemeldet sind, funktioniert es jedoch einwandfrei, wenn Sie lokal angemeldet sind? Tritt das Problem auf, wenn Sie als normaler Benutzer angemeldet sind, aber funktioniert es, wenn Sie mit erhöhten Berechtigungen angemeldet sind? Tritt es nur auf einem System auf, aber ein anderes System, das ähnlich sein sollte, zeigt das Symptom nicht?
  • Lokalisieren Sie das Problem auf eine wahrscheinlich fehlerhafte Funktionskomponente. Wenn in einer Webanwendung ein Fehler auftritt, liegt dieser im Anwendungscode, im Webserver, im Betriebssystem, auf dem der Webserver gehostet wird, im Netzwerk oder im Remote-Bereich vor? Dies ist an dieser Stelle die beste Vermutung, damit sich die Ressourcen auf die wahrscheinliche Ursache konzentrieren. Stellen Sie daher sicher, dass andere wissen, dass dies Theorie / Vermutung ist.

  • Stellen Sie Ihre Annahmen in Frage und versuchen Sie, empirische Daten zu sammeln, um Annahmen und Schlussfolgerungen zu stützen. Es ist ein ziemlich schlechtes Gefühl, jemandem zu sagen, dass es kein Problem mit x gibt, und es wird später festgestellt, dass es tatsächlich ein Problem gibt. Wenn eine falsche Lösung vorliegt, sind normalerweise Daten vorhanden, die eine korrekte Lösung unterstützen.

Greg Askew
quelle