Wenn ich hier meine Frage beantworte , frage ich mich, ob es starke Ansichten für oder gegen die Verwendung der Standardabweichung zur Erkennung von Ausreißern gibt (z. B. ist jeder Datenpunkt mit mehr als 2 Standardabweichungen ein Ausreißer).
Ich weiß, dass dies vom Kontext der Studie abhängt, zum Beispiel wird ein Datenpunkt von 48 kg sicherlich ein Ausreißer in einer Studie zum Gewicht von Babys sein, aber nicht in einer Studie zum Gewicht von Erwachsenen.
Ausreißer sind das Ergebnis einer Reihe von Faktoren, z. B. Eingabefehler. In meinem Fall sind diese Prozesse robust.
Ich schätze, die Frage, die ich stelle, lautet: Ist die Verwendung der Standardabweichung eine gute Methode zur Erkennung von Ausreißern?
Antworten:
Einige Ausreißer sind eindeutig unmöglich . Sie erwähnen 48 kg für das Babygewicht. Dies ist eindeutig ein Fehler. Das ist kein statistisches Problem, es ist ein inhaltliches. Es gibt keine 48 kg menschlichen Babys. Jede statistische Methode identifiziert einen solchen Punkt.
Ich persönlich würde die Daten grafisch darstellen, anstatt mich auf einen Test zu verlassen (auch auf geeignete, wie von @Michael empfohlen). Das Anzeigen, dass ein bestimmter Datenwert (oder Werte) unter einer bestimmten hypothetischen Verteilung unwahrscheinlich ist, bedeutet nicht, dass der Wert falsch ist. Daher sollten Werte nicht automatisch gelöscht werden, nur weil sie extrem sind.
Darüber hinaus ist die von Ihnen vorgeschlagene Regel (2 SD vom Mittelwert) eine alte, die in den Tagen verwendet wurde, bevor Computer die Dinge einfacher machten. Wenn N 100.000 ist, dann erwarten Sie sicher einige Werte mehr als 2 SD vom Mittelwert, selbst wenn es eine perfekte Normalverteilung gibt.
Aber was ist, wenn die Verteilung falsch ist? Angenommen, die betreffende Variable ist in der Grundgesamtheit nicht normalverteilt, hat aber schwerere Schwänze?
quelle
Ja. Es ist ein schlechter Weg, um Oultiere zu "erkennen". Bei normal verteilten Daten würde eine solche Methode 5% der perfekt guten (aber leicht extremen) Beobachtungen als "Ausreißer" bezeichnen. Auch wenn Sie eine Stichprobe der Größe n haben und nach extrem hohen oder niedrigen Beobachtungen suchen, um sie als Ausreißer zu bezeichnen, sehen Sie sich die Statistik der extremen Ordnungen genau an. Das Maximum und Minimum einer normalverteilten Probe ist nicht normalverteilt. Der Test sollte also auf der Verteilung der Extreme basieren. Das ist es, was Grubbs 'Test und Dixons Ratio-Test tun, wie ich bereits mehrfach erwähnt habe. Selbst wenn Sie einen geeigneten Test für Ausreißer verwenden, sollte eine Beobachtung nicht abgelehnt werden, nur weil sie ungewöhnlich extrem ist. Sie sollten untersuchen, warum die extreme Beobachtung zuerst auftrat.
quelle
Wenn Sie fragen, wie viele Standardabweichungen vom Mittelwert eines potenziellen Ausreißers vorliegen, vergessen Sie nicht, dass der Ausreißer selbst die SD erhöht und auch den Wert des Mittelwerts beeinflusst. Wenn Sie N-Werte haben, darf das Verhältnis des Abstands vom Mittelwert geteilt durch die SD (N-1) / sqrt (N) niemals überschreiten. Dies ist natürlich am wichtigsten bei winzigen Proben. Wenn beispielsweise N = 3 ist, kann kein Ausreißer möglicherweise mehr als 1,155 * SD vom Mittelwert entfernt sein, so dass es unmöglich ist, dass ein Wert jemals mehr als 2 SDs vom Mittelwert entfernt ist. (Dies setzt natürlich voraus, dass Sie die Beispiel-SD aus den vorliegenden Daten berechnen und keinen theoretischen Grund haben, die Populations-SD zu kennen.)
Die kritischen Werte für den Grubbs-Test wurden berechnet, um dies zu berücksichtigen, und hängen daher von der Probengröße ab.
quelle
Ich denke, Kontext ist alles. Für das gegebene Beispiel ist ein 48 kg schweres Baby eindeutig fehlerhaft, und die Verwendung von 2 Standardabweichungen würde diesen Fall auffangen. Es gibt jedoch keinen Grund zu der Annahme, dass die Verwendung von 2 Standardabweichungen (oder einem anderen Vielfachen von SD) für andere Daten geeignet ist. Wenn Sie beispielsweise Pestizidrückstände in Oberflächengewässern untersuchen, sind Daten über 2 Standardabweichungen ziemlich häufig. Diese besonders hohen Werte sind keine „Ausreißer“, auch wenn sie weit vom Mittelwert entfernt sind, da sie auf Regenereignisse, kürzliche Pestizidanwendungen usw. zurückzuführen sind. Natürlich können Sie auch andere „Faustregeln“ erstellen (warum nicht 1,5 × SD oder 3.1415927 × SD?), Aber ehrlich gesagt sind solche Regeln schwer zu verteidigen, und ihr Erfolg oder Misserfolg wird sich in Abhängigkeit von den Daten ändern, die Sie untersuchen. Ich denke, mit Urteil und Logik, trotz der Subjektivität, ist eine bessere Methode, um Ausreißer loszuwerden, als eine willkürliche Regel zu verwenden. In diesem Fall brauchten Sie keine 2 × SD, um den 48-kg-Ausreißer zu erkennen - Sie konnten es nachvollziehen. Ist das nicht eine überlegene Methode? Sind willkürliche Regeln für Fälle, in denen Sie es nicht herausfinden können, besser?
quelle