Ich schreibe ein Skript, das die Laufzeiten von Prozessen analysiert. Ich bin mir ihrer Verteilung nicht sicher, aber ich möchte wissen, ob ein Prozess "zu lange" läuft. Bisher habe ich 3 Standardabweichungen der letzten Laufzeiten verwendet (n> 30), aber mir wurde gesagt, dass dies nichts Nützliches bietet, wenn die Daten nicht normal sind (was nicht der Fall zu sein scheint). Ich habe einen weiteren Ausreißertest gefunden, der besagt:
Finden Sie den Interquartilbereich, der IQR = Q3 - Q1 ist, wobei Q3 das dritte Quartil und Q1 das erste Quartil ist. Dann finden Sie diese beiden Zahlen:
a) Q1 - 1,5 * IQR b) Q3 + 1,5 * IQR
Der Punkt ist ein Ausreißer, wenn <a oder> b
Meine Daten sind in der Regel 2 Sekunden, 3 Sekunden, 2 Sekunden, 5 Sekunden, 300 Sekunden, 4 Sekunden, wobei 300 Sekunden offensichtlich ein Ausreißer sind.
Welche Methode ist besser? Die IQR-Methode oder die Standardabweichungsmethode?
quelle
Antworten:
Es gibt wirklich ganze Bücher über Ausreißer.
Die übliche spezifische Antwort lautet, dass die Standardabweichung von Ausreißern hochgezogen wird, sodass jede auf der SD basierende Regel möglicherweise eine schlechte Leistung erbringt.
Die von Ihnen zitierten Tukey-Regeln für Quartile +/- 1,5 IQR stammen aus der Handarbeit mit kleinen und mittelgroßen Datensätzen in den 1970er Jahren und wurden entwickelt, um Werte anzugeben, über die Sie möglicherweise individuell nachdenken möchten. Es ist nicht klar, ob sie auf viel größere Datensätze übertragen werden oder ob sie zutreffen, wenn Sie eine erhebliche Schiefe erwarten.
Eine allgemeinere Antwort ist, dass eine Ausreißerregel gut ist, wenn sie immer die richtigen Entscheidungen trifft, aber wie können Sie das beurteilen?
Dies ist umstrittenes Gebiet, aber ich würde erwarten, dass ein Ausreißer in einem Diagramm hervorsticht und sich stark von anderen unterscheidet. Aber es ist oft (normalerweise?) Eine schwierige Aufgabe, den Unterschied zwischen dem, was Sie von einer Distribution mit starkem Schwanz erwarten, und dem, was zu wild ist, um es als etwas anderes als einen Ausreißer zu betrachten, zu erkennen. Manchmal lässt die Transformation einen Ausreißer viel gewöhnlicher aussehen.
Wenn Sie robuste Methoden verwenden, müssen Sie sich möglicherweise weniger Gedanken darüber machen, welche Werte als Ausreißer bezeichnet werden, sondern eher über Ausreißer im Allgemeinen.
quelle
Sie sagen, Sie sind sich der Verteilung nicht sicher, aber laufende Prozesse lassen sich leicht erfassen und für die Verteilung bewerten. Sparen Sie einfach ein paar Mal und analysieren Sie diese. Angesichts der Zeiten, die Sie gepostet haben, könnten Sie in wenigen Stunden viele bekommen.
Ihre Suche nach einer Regel für einen Ausreißer muss nicht so allgemein sein. Es kann spezifisch für Ihre Aufgabe sein. Sie können viele Daten sammeln. Sammeln Sie es, untersuchen Sie es und entscheiden Sie dann, wann ein Prozess zu lang ist. Möglicherweise funktioniert ein IQR-basierter Ansatz, aber Sie können Ihren Datensatz oder eine parametrische Anpassung verwenden, um Simulationen durchzuführen und festzustellen, ob er gut funktioniert. Gleiches gilt für SD. Es kann sein, dass> 50s zu lang sind und das ist alles, was Sie brauchen.
quelle