Boxplot in R: Zählen die Ausreißer, wenn die Quantile bestimmt werden?

8

Ich habe einen eindimensionalen Datensatz und verwende die boxplotFunktion, um ein Box-Diagramm zu erstellen. Dann kann ich sehen, dass ich einige Ausreißer habe.

Zählen die Ausreißer, wenn die Quantile bestimmt werden?

Gibt es einen richtigen / falschen Weg oder sind beide Wege richtig, solange klar ist, welche Methode angewendet wurde? Wenn ja, wie macht R das?

k.dkhk
quelle
6
Es ist teilweise eine Frage des englischen Sprachgebrauchs, aber Boxplot-Programme bestimmen keine Ausreißer. Sie zeichnen höchstens separat Punkte auf, über die nachgedacht werden sollte und die möglicherweise (univariate) Ausreißer sind.
Nick Cox
1
Bei einer großen Probe aus einer Exponentialverteilung können etwa der Probe hinter dem oberen Whisker erscheinen. Wenn Sie diese ausschließen, könnten Sie wesentlich falsche Quantile erhalten4.8%
Henry

Antworten:

12

R verwendet - wie viele, aber nicht alle Programme - meistens Tukeys Definition *, wie ein Boxplot gezeichnet wird.

Das gesamte Originalmuster wird zur Berechnung der Scharniere verwendet (wo die Kastenenden gezogen werden).

Scharniere sind den Quartilen sehr ähnlich (man könnte sagen, sie sind eine besondere Methode zur Berechnung des oberen und unteren Quartils, die sich geringfügig von den üblichen Definitionen von Quartilen unterscheidet - obwohl es auch eine Reihe unterschiedlicher Definitionen von Beispielquartilen gibt; in der Tat bietet R neun verschiedene Quartilberechnungen (ohne Scharniere selbst).

Das obere Scharnier befindet sich im Median der oberen Hälfte der Daten (die obere Hälfte enthält den Median der ursprünglichen Stichprobe, wenn es sich um einen Datenpunkt handelt) und das untere Scharnier befindet sich im Median der unteren Hälfte (die auch den Median enthält) der Originalprobe, wenn sie sich an einem Datenpunkt befand):

Diagramm zur Berechnung der Scharniere

So sind beispielsweise bei 6 Beobachtungen die Scharniere die zweitgrößte und die fünftgrößte Beobachtung (3 Punkte in jeder Hälfte). Mit 9 Beobachtungen sind die Scharniere die dritt- und achtgrößten (5 Punkte in jeder Hälfte, der Median in beiden Hälften). Bei 11 Beobachtungen liegt das untere Scharnier auf halbem Weg zwischen der dritt- und viertgrößten Beobachtung und das obere Scharnier auf halbem Weg zwischen der acht- und neuntgrößten Beobachtung (6 Punkte in jeder Hälfte). Die Abbildung zeigt den Fall mit 13 Beobachtungen.

Beachten Sie, dass Quartile (/ Scharniere) überhaupt nicht für die Werte der Ausreißer empfindlich sind, sondern nur für die Tatsache, dass sie sich außerhalb der Quartile befinden. Sie können sie alle nahe an die Kastenenden verschieben (damit es keine Ausreißer gibt), ohne die Quartile / Scharniere zu ändern, oder so weit weg, wie Sie möchten (damit sie alle weit entfernt sind), ohne die Werte der Quartile zu ändern . Es wäre also wirklich nicht nötig, etwas zu tun, wenn es einen "Ausreißer" gibt.


* Oder besser gesagt, einer von ihnen; Tukey gab mehrere Definitionen an, obwohl wir uns für die gegenwärtigen Zwecke nur darum kümmern müssen, wie die Berechnung der Scharniere funktioniert; Ich sage meistens, weil die Version mit "Ausreißern" das ist, was Tukey eine schematische Darstellung nennt, aber sie machen nicht die mit zwei verschiedenen Arten von "Ausreißern".

Glen_b -Reinstate Monica
quelle
Entspricht die Definition für Scharniere in diesem Zusammenhang der Beschreibung von Tukey für die Verwendung des vierten Spread ? Beim Lesen von Understanding Robust and Exploratory Data Analysis erklärt er: "Einige Leser kennen möglicherweise den Interquartilbereich , der sehr nahe am vierten Spread liegt, da Quartile fast den Vierteln entsprechen." Ich habe in diesem Buch nicht gesehen, wo er jemals den Unterschied zwischen den beiden erklärt hat.
Tavrock
@Tavrock Viertel haben die gleiche Definition wie Scharniere . Beide Begriffe sind Erfindungen von Tukey. "Scharnierspreizung" ist also dasselbe wie "vierte Ausbreitung".
Glen_b -Reinstate Monica