Fehlendes Quartil im Boxplot

7

Derzeit erstelle ich ein Boxplot. Ich bin neu auf dem Gebiet der Statistik und insbesondere der Boxplots. Finden Sie das Bild wie folgt:Geben Sie hier die Bildbeschreibung ein

Auf der y-Achse finden Sie die Anzahl der Nachrichten. Ich habe Probleme zu verstehen, was ich dort sehe. Der Plot wird von Matlab automatisch erstellt. Wie ich weiß, sollte ein Boxplot vier Quartile enthalten. Ich sehe dort nur drei. Wahrscheinlich geschah dies aufgrund des Wertes des Medians (es ist die grüne Linie). Aber ich weiß nicht, was das bedeutet, wenn ein Quartil fehlt. Ist hier jemand, der das erklären und mir einige Details sagen kann, was Sie aus der Handlung lesen können?

chris000r
quelle
Für die meisten Zwecke ist es besser, ein Histogramm oder ein Punktdiagramm mit einem Bin für jede Ganzzahl zu verwenden. Nichts hält Sie davon ab, diesen Vertikal zu zeichnen oder Median und Quartile zu überlagern. Neben einigen anderen Einschränkungen gibt dieses Design keine Informationen über die Frequenzen von 12 14 16 18 20 als beobachtete Werte.
Nick Cox
Frage: Es scheint, dass in Ihren Daten nur gerade Ganzzahlen erscheinen. Ist das so und wenn ja, warum passiert das?
Nick Cox
Es gibt 3 Quartile, nicht 4. Sie definieren bis zu 4 Fächer (in diesem Fall weniger).
Nick Cox
@NickCox Die y-Achse besteht aus einer Reihe von Nachrichten. Das sind Zähldaten und erklärt die ganzen Zahlen.
Bernhard
Klar, das verstehe ich, wie mein erster Kommentar zeigt, aber warum nur ganze Zahlen? Ich sehe 26 20 18 16 14 12 10 8 6 4 gezeigt. Einige ungerade ganze Zahlen können durch die Box ausgeblendet werden. sonst sieht das aus wie ein Muster.
Nick Cox

Antworten:

18

Der Median ist wahrscheinlich identisch mit dem ersten Quartil, weshalb sie sich überlappen. Dies ist in der Regel der Fall, wenn der Datensatz einen großen Anteil identischer, niedriger Werte enthält. Hier ist ein Beispiel, das dieses Muster reproduziert:

dat <- c(1,2,2,2,3,5,6)

median(dat)
## 2
quantile(dat, 0.25)
## 25% 
##  2 

boxplot(dat)

Geben Sie hier die Bildbeschreibung ein Eine grundlegende Einführung zur Interpretation von Boxplots finden Sie hier . Wie Nick Cox weiter unten ausführt, ist die Diskussion über sogenannte Ausreißer fehlerhaft und sollte ignoriert werden. Ausreißer sollten nur gelöscht werden, wenn ein sehr wichtiger Grund dafür vorliegt, z. B. ein eindeutiger Datenaufzeichnungsfehler.

Beachten Sie auch, dass ein Boxplot keine gute Möglichkeit ist, viele Datensätze anzuzeigen. Ich stimme Stephan Kolassas Empfehlung eines Bienenwarmplots für kleine Datensätze und eines Violinplots / Kerndichtediagramms für größere Datensätze zu.

mkt - Monica wieder einsetzen
quelle
4
Die zitierte Quelle folgt einer bedauerlicherweise üblichen Praxis, Punkte anzurufen, die einzeln durch die Namensausreißer angezeigt werden . Wie das Box-Diagramm hier zeigt, sind solche Punkte nicht unbedingt Ausreißer in einem anderen starken statistischen Sinne. Dies ist mehr als der Begriff, der verwendet werden sollte: Viele Fragen zum Lebenslauf - insbesondere aus der „Datenwissenschaft“ - zeigen die Überzeugung, dass solche Punkte vor der weiteren Analyse gestrichen werden sollten.
Nick Cox
1
@ NickCox Danke, ich stimme dieser Kritik zu und hätte sie auffangen sollen, bevor ich darauf verlinkt habe.
mkt - Monica
9

Die "Box" in einem Boxplot erstreckt sich vom ersten bis zum dritten Quartil, dh vom 25. bis zum 75. Perzentil. Visuell bedeutet dies, dass Ihr 25. Perzentil ungefähr 6 Nachrichten und Ihr 75. Perzentil ungefähr 8 Nachrichten umfasst.

Zusätzlich geben Boxplots den Median (dh das zweite Quartil oder das 50. Perzentil) unter Verwendung einer horizontalen Linie an.

Natürlich kann der Median mit einem Quartil zusammenfallen. Gute Implementierungen verwenden daher eine andere Farbe oder einen anderen Linientyp für die Mittellinie. Im vorliegenden Fall sehen wir, dass die untere horizontale Linie grün ist. Es ist offensichtlich über der ersten Quartillinie aufgetragen . Dies ist also nicht nur das erste Quartil, sondern gleichzeitig der Median. Daher liegt Ihr Median auch bei 6.

Sie sollten dies anhand Ihrer Daten überprüfen können, indem Sie die Quartile und den Median berechnen.

Stephan Kolassa
quelle
3
(+1) Alles knallt, aber ich habe Box-Plots für kleine Ganzzahlen gesehen, die so oft falsch interpretiert wurden - die Leute können oder wollen nicht genau über Krawatten nachdenken und was sie möglicherweise implizieren -, dass ich normalerweise etwas anderes empfehle.
Nick Cox
2
@ NickCox: sehr wahr. Normalerweise empfehle ich ein Bienenwarmplot, das dem Boxplot überlagert ist, wenn die Anzahl der Punkte "klein oder mittelgroß" ist, und ein Geigenplot, wenn es "mittelgroß oder groß" ist.
Stephan Kolassa