Wie kann ich Probleme beheben, wenn ich keine Ahnung habe, wo ich anfangen soll?

40

Ich suche nach Hinweisen, Tipps und Antworten, wie ich bei der Fehlerbehebung anfangen kann, wenn:

  1. Das Problem tritt nur sporadisch auf
  2. Das Problem könnte buchstäblich überall liegen - Betriebssystem; freie Quellensoftware; meine eigenen Softwareentwicklungen; gekaufte Software; Krümel auf der Tastatur; die spezielle Kombination von Software, die ich gerade verwende; Maxwells Dämon; Die kleinen blauen Männer, die die Maschine steuern, sind in den Streik getreten. usw.
  3. Ich habe nur in einigen Bereichen Erfahrung, die potenzielle Kandidaten für die Ursache des Problems sind.

Das spezifische Problem, das ich habe, wird im Folgenden als Beispiel aufgeführt, aber ich suche keine Antworten auf mein aktuelles Problem, sondern eher, wo und wie ich anfangen soll, solche Probleme anzugehen.

Ich habe zurzeit ein Problem mit meiner neuen Maschine. In einigen Fällen ist die Maschine gerade eingefroren. Sie dürfen keine Tastenanschläge, Mausklicks oder andere Aktionen außer dem Ein- / Ausschalter akzeptieren. Ich habe immer nur im Internet gestöbert. Ich habe einige (<= 6 andere Anwendungen) ausgeführt. Keine dieser Anwendungen ist von Bedeutung. und repräsentieren eine Mischung aus kommerziellen Programmen und Open-Source-Programmen, die typischerweise von Unix irgendeiner Art migriert wurden.

Mein Computer ist ein Windows 7 I7 Quad-Core-Laptop.

BEARBEITEN:

Obwohl ich angegeben habe, dass die eigentliche Problembeschreibung nur ein Beispiel ist, konzentrieren sich einige Kommentare auf die Lösung dieses Problems. Da es sich nur um ein Beispiel handelt, sind die angegebenen Informationen leider korrekt, aber nicht vollständig. Um zu vermeiden, dass die Leute ihre Zeit damit verschwenden, aus der Ferne zu versuchen, das eigentliche Problem zu lösen, gebe ich einige andere Informationen zu meinem Setup. Wie ich ursprünglich sagte, suche ich keine Antworten auf dieses spezielle Problem.

Meine Maschine ist ein leistungsstarker Laptop. ist meine Hauptmaschine; wird für Entwicklung und technisches Schreiben, Kommunikation - E-Mail, Web, FTP usw. sowie für die Fotobearbeitung und -indexierung verwendet. Eine strenge und umfassende Reihe von Hardwaretestprogrammen, einschließlich CPU-Tests, Tests für mehrere Speicher und Tests für alle anderen Komponenten, werden mindestens monatlich darauf ausgeführt. Mindestens monatlich wird auch ein vollständiger Virenscan durchgeführt. ein vollständiger Spyware-Scan; eine Datenträgerbereinigung; und eine Defragmentierung.

Die Festplatte enthält ungefähr 3 * 10 ^ 6 Dateien. Die Festplattennutzung beträgt 300 GB, wobei 150 GB frei bleiben. Speicher ist 8 GB. Während sich der Computer leicht erwärmen kann, wenn ich eine vollständige Palette der wichtigsten Entwicklungstools verwende, ist das Problem nur dann aufgetreten, wenn ich den Computer sehr leicht verwende - Webbrowsing plus Textpad plus Graphviz plus eine Firebird-Datenbank plus einen leichten Datenbankbrowser (Flame Robin) ). Unter diesen Umständen ist auch der Lüfter nicht leicht warm. Ich habe in dem Zeitraum, in dem ich auf das Problem gestoßen bin, keine Änderungen an Software, Betriebssystem oder Hardware vorgenommen. Es wurde eine Reihe von automatischen Updates durchgeführt - hauptsächlich, aber nicht ausschließlich, von Microsoft, Adobe und Lenovo.

Dieser Hintergrund bringt (wie ich hoffe) meine Gründe in Zusammenhang, diese Frage so zu stellen, wie ich es getan habe. Ich werde jetzt damit beginnen, die verschiedenen in den Antworten erwähnten Protokolle zu untersuchen, um zu versuchen, das Untersuchungsfeld einzugrenzen. Und ich werde eine der Eigenschaften ausprobieren, die in den Antworten vorgeschlagen wurden, die ich bisher erhalten habe - Geduld - in meiner Untersuchung.

Chris Walton
quelle
6
+1 Weil diese Frage für mich in Zukunft nützlich sein kann.
Tamara Wijsman
2
Manchmal sollten Sie, bevor Sie zu einem vollständigen, methodischen Problemlösungsansatz übergehen, versuchen, einige häufig vorkommende Probleme zu beseitigen: Führen Sie einen vollständigen Spyware-Scan durch, durchsuchen Sie das Windows-Protokoll nach unerwarteten Herunterfahren und überprüfen Sie, welche (eventuellen) Probleme davor aufgetreten sind Überprüfen Sie den Festplattenspeicher, führen Sie die Datenträgerprüfung aus, und geben Sie Sysinternals Autoruns einen schnellen Scan auf unbekannte / verdächtige Software. Führen Sie eine einfache Reihe von Tools aus, mit denen Sie schnell eine Vielzahl von Hardware- und Softwareproblemen identifizieren können. Wenn sie nichts finden, haben Sie wenig Zeit verschwendet und können einen gründlicheren Prozess einleiten.
Alain
1
Besuchen Sie auch Marks Blog, um zu erfahren, wie ärgerliche Probleme mit Sysinternals behoben werden.
Tamara Wijsman
1
Viel Glück bei der Fehlerbehebung, ich würde vorschlagen, eine neue Frage zu erstellen, wenn Sie mehr Feedback wünschen, um die Dinge zu organisieren ...
Tamara Wijsman

Antworten:

42

Holen Sie sich eine bessere Vorstellung.

Ohne ausreichende Feldinformationen werden Sie keinen Kampf gewinnen.

  1. Beschreiben Sie Ihr Problem ausführlich, damit Sie eine gute Vorstellung davon haben, wer weiß, dass es nur einmal vorkommt.

  2. Verfolgen Sie in der Vergangenheit, was vor und zusammen mit dem Problem passiert ist, sowohl Sie als auch Ihren Computer.

  3. Denken Sie an die möglichen Ursachen, weil es manchmal etwas ist, das nicht offensichtlich ist.

  4. Wenn Sie keine Ahnung haben, was gerade passiert, erhalten Sie weitere Informationen. Dies kann von Ereignissen über SysInternals-Tools , Leistungsanalyse und Debugging bis hin zu anderen Tools in Ihrem Fachwissen reichen .

  5. Testen Sie Ihre Annahmen , um sicherzustellen, dass Ihre Gedanken die Ursache nicht herausfiltern.

Teilen und erobern.

Denn so besiegt das Militär seinen Gegner, auch wenn er zahlenmäßig unterlegen ist.

Beseitigen Sie die möglichen Ursachen, da Sie sonst Probleme haben, das Problem im Auge zu behalten. Auf diese Weise kommen Sie der eigentlichen Ursache des Problems immer näher und können das Problem viel einfacher lösen.

Trennen und entfernen Sie beispielsweise mit Hardware alle Komponenten, die Sie zur Behebung Ihres Problems nicht benötigen. Auf diese Weise können Sie möglicherweise die Komponente trennen, die das Problem verursacht. Und dann geht es wieder darum, die Hälfte der Komponenten einzufügen, zu überprüfen, ob sie erneut auftreten, und das Teilen zu wiederholen, bis Sie die fehlerhafte Komponente haben ...

Wenn etwas auf einem anderen Computer getestet wird, ist dies auch ein guter Vorteil, um das Problem zu lösen.

Bei Software hilft es beispielsweise, den Computer im abgesicherten Modus neu zu starten und die Starteinträge zu deaktivieren. Dies gilt auch für das Aktivieren / Deaktivieren von Einstellungen, das Ausprobieren der Standardkonfiguration usw.

Lassen Sie es uns auf die Probe stellen.

Ich habe zurzeit ein Problem mit meiner neuen Maschine. In einigen Fällen ist die Maschine gerade eingefroren. Sie dürfen keine Tastenanschläge, Mausklicks oder andere Aktionen außer dem Ein- / Ausschalter akzeptieren. Ich habe immer nur im Internet gestöbert. Ich habe einige (<= 6 andere Anwendungen) ausgeführt. Keine dieser Anwendungen ist von Bedeutung. und repräsentieren eine Mischung aus kommerziellen Programmen und Open-Source-Programmen, die typischerweise von Unix irgendeiner Art migriert wurden.

  1. Das ist eine richtige Beschreibung für sich, sie kommt auch nicht nur einmal vor .

  2. Sie wissen, was zusammen mit dem Problem passiert ist
    , haben aber noch nicht an Dinge gedacht, die Sie oder Ihr Computer vor dem Problem getan haben .

    Ich kann das nicht sagen, aber Sie, Ihr Ereignisprotokoll und kürzlich geänderte Dateien / Ordner könnten es sagen.

  3. Mögliche Ursache ist wahrscheinlich die CPU , weil es die Komponente ist, die die Dinge verarbeitet.

    Genauer gesagt kann dies ein Prozess, ein Treiber oder ein Hardwarefehler sein (möglicherweise Temperaturprobleme?).

  4. Ich weiß, es ist CPU, aber ich weiß nicht was. Ereignisse zeigen dies nicht, der Process Explorer würde bei DPC hängen .

    Also lasse ich im nächsten Schritt die Trace-Analyse laufen, die ich schließe, nachdem der Hang aufgetreten ist.

    Ich schaue in die Spur und sehe, dass Treiber X das Problem verursacht !

  5. Es werden keine wirklichen Annahmen getroffen. Die CPU-Annahme wird von unserem Divide & Conquer-Ansatz behandelt ...

Also, hier beginne ich zu teilen, um das Problem zu überwinden, ich höre auf, sobald es gelöst ist:

  1. Problem mit der aktuellen Treiberversion?
    Aktualisieren Sie den Treiber auf die neueste Version.

  2. Problem mit den neuesten Versionen des Treibers?
    Holen Sie sich eine neue Spur. Aktualisieren Sie den Treiber auf eine ältere Version, die von der ursprünglichen Version abweicht.

  3. Problem mit dem Gerät? Konfigurationsproblem in der Registry?
    Holen Sie sich eine neue Spur. Installieren und / oder deaktivieren Sie das Gerät, falls möglich.

  4. Problem ist zufällig, heizt sich der Prozessor auf?
    Überprüfen Sie die Prozessortemperatur und ersetzen Sie gegebenenfalls den Lüfter.

  5. Problem ist nicht der Prozessor, gibt es andere Hardware- und Softwareeinflüsse?
    Entfernen Sie die Hardware und deaktivieren Sie die Software, um den Einfluss Dritter zu verringern.

  6. Problem ist nicht in einem abnehmbaren Teil, es sollte ersetzt werden.
    Im schlimmsten Fall, wenn alles andere fehlschlägt, müssen Sie einen Ersatz suchen.

Wenn wir neue Spuren erhalten und Hardware entfernen, erhalten wir mehr Informationen, sodass wir wissen, wo wir als Nächstes suchen müssen.

Tamara Wijsman
quelle
4
+1 für Teilen und Erobern. Akzeptiert für die Spezifikation von Beschreibung, Rückverfolgung und Mechanismen zur Aufteilung und Bewältigung des Problems.
Chris Walton
5
+1 Geniale Antwort. Das Einzige, was Sie hinzufügen müssen, ist Folgendes: Testen Sie Ihre Vermutungen
Bevan,
Wie wäre es mit "eine Sache nach der anderen ändern"?
Florenz Kley
2
@Florenz: Nun, indem Sie sie teilen, nehmen Sie sie entweder einzeln (für eine kleine Zahl oder wenn Sie sich nicht auf mehrere Ursachen stützen können) oder Sie teilen sie auf (für eine größere Zahl, wenn Sie mehrere Dinge unter überprüfen können) Wenn möglich, ist die Aufteilung in zwei Hälften schneller als eine nach der anderen. Um beispielsweise 100 Dinge zu beheben, müssen Sie sie nur achtmal testen (100-> 50-> 25-> 13-> 7-> 4-> 2-> 1), statt 100 mal ...
Tamara Wijsman
2
vernünftige Aufteilung! Was ich damit sagen wollte, ist "Repariere nichts schneller als du eine Änderung einem beobachteten Delta zuschreiben kannst". Die Verwendung eines Laborbuchs mit Seiten, die ich nicht herausreißen kann, ist meine Methode, um sicherzustellen, dass ich das kann.
Florenz Kley
6

Gute Protokolle und Intuition - wirklich.

  • Behalten Sie vom ersten Tag an alles im Auge, was Sie am System tun: App- und Betriebssystem-Updates, Neuinstallationen, neue oder entfernte Hardware oder Verbindungen, das Gewitter, das "kein Problem verursacht" hat.
  • Als Sie das Problem zum ersten Mal bemerkten:
    • Was hast du gemacht
    • Was ist in letzter Zeit noch ungewöhnliches passiert?
    • Was hast du in letzter Zeit anders gemacht?
    • Von da an sollten Sie wissen, was Sie tun, wenn es das nächste Mal passiert. Sie haben einen besseren Überblick über das, was gerade vorhergegangen ist.
    • Snapshot der Systemprotokolle.
  • Sehen Sie, ob Sie es reproduzieren können. Solange Sie es nicht reproduzieren können, können Sie es nicht finden.
  • Starten Sie die Partitionierung des Systems: Abgesicherter Modus vs. Live-Betrieb, neues Konto vs. Ihr reguläres Konto, andere Tastatur und Maus als Ihre regulären (insbesondere Bluetooth vs. Kabel). erst nach einer stunde mehr laufen (denken thermisch).
JRobert
quelle
2
+1 für Protokollierungsaktivität; und für die Intuition. Nicht die akzeptierte Antwort, nur weil die Protokollierung nur dann gut ist, wenn sie ab Tag 1 durchgeführt wird. Ich habe Protokolle geführt, aber nicht ausreichend detailliert. und enthalten keine Systemupdates von Microsoft und andere automatisierte Updates.
Chris Walton
1
@ ChrisWalton: Es gibt detaillierte Protokolle für Windows Update, das Einfügen / Entfernen von Geräten, die Installation von Treibern usw. Siehe C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.logund auch Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. @JRobert, +1, um zu erklären, wie man eine Idee detaillierter bekommt ...
Tamara Wijsman
4

Normalerweise beginne ich mit den Ereignisprotokollen und allen Protokollen, die ein Programm selbst erstellen kann. Programme erstellen manchmal ein Protokoll im Programmordner.

Nachdem Sie die Uhrzeit ermittelt haben, durchsuchen Sie die Protokolle nach Ereignissen. Natürlich können Windows-Protokolle Stop-Fehler enthalten, die leicht zu identifizieren sind.

Überprüfen Sie alle Treiber und vergewissern Sie sich, dass sie aktuell sind.

Geduld wird in großen Dosen gefordert sein.

Dave M
quelle
2

Zusätzlich zu all den guten Ratschlägen, die bereits gegeben wurden, lohnt sich häufig ein ordnungsgemäßer Speichertest des Computers, wenn Protokolldateien nicht viel zu erledigen sind. Ein fehlerhafter Speicher kann alle möglichen seltsamen zeitweiligen Einfrierungen und Abstürze verursachen. Der eingebaute Speichertest ähnelt viel eher einer Speicheranzahl. Es ist äußerst selten, dass der Einschalttest einen Speicherfehler erkennt.

Google für Windows Memory Diagnostic und brennen Sie es auf eine CD. Es ist alt, aber es ist einer der besseren Gedächtnistests und es ist kostenlos.

Matt
quelle
danke für deine antwort und das vorgeschlagene tool. Ich fürchte, Sie haben den Punkt meiner Frage eher verpasst - Sie schlagen Gedächtnistests vor. Jemand anderes schlug automatische Software-Downloads von Adobe vor. Meine Frage war: Wie entscheiden Sie unter diesen Umständen, was zu tun ist, wenn es eine Vielzahl von Möglichkeiten gibt?
Chris Walton
1
@ Chris: Wie gesagt; Bei der Fehlerbehebung bei zeitweiligen und unerklärlichen Problemen (in einer Situation, in der die Entwicklung nicht vonstatten geht) würde ich einen Gedächtnistest durchführen, wenn es kein Protokoll zum Starten und keine anderen Markierungen zum Vorschlagen des Startpunkts gibt. Die Logik ist, dass die Ausführung relativ schnell ist, verglichen mit dem Versuch, ein zeitweise auftretendes Problem zu reproduzieren. Sobald dies ausgeschlossen ist, fängt man an, sich einzugrenzen und eine Idee zu bekommen, wie TomWij es ausdrückt.
Matt
Fair genug.
Chris Walton