Die Standarddefinition eines Ausreißers für einen Box- und Whisker-Plot liegt außerhalb des Bereichs , wobei und das erste Quartil und ist das dritte Quartil der Daten.Q 1 Q 3
Was ist die Basis für diese Definition? Mit einer großen Anzahl von Punkten gibt sogar eine vollkommen normale Verteilung Ausreißer zurück.
Angenommen, Sie beginnen mit der folgenden Sequenz:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Diese Sequenz erstellt ein Perzentil-Ranking von 4000 Datenpunkten.
Das Testen der Normalität für qnorm
diese Serie ergibt:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Die Ergebnisse sind genau wie erwartet: Die Normalität einer Normalverteilung ist normal. Durch das Erstellen einer qqnorm(qnorm(xseq))
wird (wie erwartet) eine gerade Datenlinie erstellt:
Wenn ein Boxplot mit denselben Daten erstellt wird, boxplot(qnorm(xseq))
wird das folgende Ergebnis erzeugt:
Die boxplot, im Gegensatz zu shapiro.test
, ad.test
oder qqnorm
identifiziert mehrere Punkte als Ausreißer , wenn die Probengrße ausreichend groß ist (wie in diesem Beispiel).
quelle
Antworten:
Boxplots
Hier ist ein relevanter Abschnitt aus Hoaglin, Mosteller und Tukey (2000): Das Verständnis von robuster und explorativer Datenanalyse. Wiley . Kapitel 3, "Boxplots und Chargenvergleich", verfasst von John D. Emerson und Judith Strenio (ab Seite 62):
Sie fahren fort und zeigen die Bewerbung einer Gaußschen Bevölkerung (Seite 63):
So
Weiter schreiben sie
Sie liefern eine Tabelle mit dem erwarteten Anteil der Werte, die außerhalb der Ausreißergrenzwerte liegen (mit "Total% Out" bezeichnet):
Diese Grenzwerte sollten also niemals eine strenge Regel darüber sein, welche Datenpunkte Ausreißer sind oder nicht. Wie Sie bemerkt haben, wird erwartet, dass selbst eine perfekte Normalverteilung "Ausreißer" in einem Boxplot aufweist.
Ausreißer
Soweit ich weiß, gibt es keine allgemein anerkannte Definition von Ausreißern. Ich mag die Definition von Hawkins (1980):
Im Idealfall sollten Sie Datenpunkte erst dann als Ausreißer behandeln, wenn Sie verstanden haben, warum sie nicht zum Rest der Daten gehören. Eine einfache Regel reicht nicht aus. Eine gute Behandlung von Ausreißern findet sich in Aggarwal (2013).
Verweise
Aggarwal CC (2013): Ausreißeranalyse. Springer.
Hawkins D (1980): Identifizierung von Ausreißern. Chapman und Hall.
Hoaglin, Mosteller und Tukey (2000): Robuste und explorative Datenanalyse verstehen. Wiley.
quelle
Das Wort "Ausreißer" wird oft als "fehlerhafter, irreführender, fehlerhafter oder fehlerhafter Datenwert, der daher in der Analyse weggelassen werden sollte" bezeichnet, was Tukey jedoch nicht mit "Ausreißer" meinte. Die Ausreißer sind einfach Punkte, die weit vom Median des Datensatzes entfernt sind.
Ihr Argument, in vielen Datensätzen Ausreißer zu erwarten, ist richtig und wichtig. Und es gibt viele gute Fragen und Antworten zum Thema.
Ausreißer aus asymmetrischen Daten entfernen
Ist es angebracht, Ausreißer zu identifizieren und zu entfernen, weil sie Probleme verursachen?
quelle
Wie bei allen Ausreißererkennungsmethoden muss mit Sorgfalt und Nachdenken ermittelt werden, welche Werte wirklich Ausreißer sind. Ich denke, der Boxplot bietet einfach eine gute Visualisierung der Datenverbreitung, und echte Ausreißer sind leicht zu erkennen.
quelle
Ich denke, Sie sollten sich Sorgen machen, wenn Sie im Rahmen einer Normalverteilung keine Ausreißer erhalten, andernfalls sollten Sie nach Gründen suchen, für die es keine gibt. Es ist klar, dass sie überprüft werden sollten, um sicherzustellen, dass sie keine Fehler aufzeichnen, ansonsten sind sie jedoch zu erwarten.
quelle