In meiner Freizeit arbeite ich an einem kleinen webbasierten System, das Absturzberichte (aber keine anderen, nicht abstürzenden Fehlerberichte) sammelt, die von Delphi Windows-Anwendungen gesendet werden.
Zur Fehlerbehebung hätten Benutzer gerne eine Data-Mining-Funktion, um Beziehungen zwischen Hardware- oder Betriebssystemversionen und dem spezifischen Fehler und / oder Absturz zu finden.
Als Beispiel, wie dies funktionieren sollte:
- Für jeden Absturz gibt es einen Bericht in der Datenbank, der zum Zeitpunkt des Absturzes einen Fingerabdruck- / Hash-Code der Stapelverfolgung (Aufrufstapel) enthält, um Duplikate zu identifizieren
- Der Algorithmus prüft, ob alle Duplikate eines Fehlerberichts auch einige andere gemeinsame Attribute aufweisen, z. B. ein fehlendes Service Pack des Betriebssystems
- Das Analyseergebnis listet alle Eigenschaften auf, die die Fehlerberichte gemeinsam haben
Nehmen wir an, diese automatischen Fehlerberichte enthalten alle wichtigen Informationen wie die Namen aller aktuell ausgeführten Prozesse, Dateinamen, Versionsinformationen geladener DLLs usw.
Wie kann ich Korrelationen zwischen wiederholten Abstürzen und der Umgebung finden? Gibt es bestimmte Algorithmen oder statistische Methoden, die helfen würden?
Antworten:
Könnten Sie die [nicht abgestürzten] Maschinen Ihres Benutzers auf die gleichen Informationen testen, die Sie in einem Absturzbericht erhalten? Denn dann könnten Sie die logistische Regression verwenden, um diese Attribute (und Interaktionen) auf die Wahrscheinlichkeit eines Absturzes zu modellieren.
quelle