Interpretieren von gekerbten Boxplots

Während ich eine EDA durchführte, entschied ich mich, ein Box-Diagramm zu verwenden, um den Unterschied zwischen zwei Ebenen eines Faktors zu veranschaulichen.

Die Art und Weise, wie ggplot das Box-Diagramm renderte, war zufriedenstellend, aber leicht vereinfacht (erstes Diagramm unten). Während ich die Eigenschaften von Boxplots untersuchte, begann ich mit Kerben zu experimentieren.

Ich verstehe, dass Kerben den CI um den Median anzeigen und dass, wenn sich die Kerben zweier Kästchen nicht überlappen, es „starke Beweise“ gibt - bei einem Konfidenzniveau von 95% -, dass sich die Mediane unterscheiden.

In meinem Fall (zweite Darstellung) überlappen sich die Kerben nicht sinnvoll. Aber warum nimmt der Boden des Kastens auf der rechten Seite diese seltsame Form an?

Das Zeichnen der gleichen Daten in einem Geigenplot zeigte nichts Ungewöhnliches an der Wahrscheinlichkeitsdichte der entsprechenden Geige.

Abb.1 Boxplot

Abb.2 gekerbtes Boxplot

data-visualization ggplot2 eda RDJ
quelle

In Ihrem ggplot-Code sollten Sie fill = factor (am) verwenden, da derzeit am als numerische Variable verwendet wird.

rnso

Das ist ein großartiger Ort @rnso

RDJ

Kann jemand die Originaldaten posten? Ich denke, sie sind aus einem Standard-Sandkasten für ggplot2. Ich mag die Idee, auch die einzelnen Datenpunkte zu zeichnen, aber es ist insofern frustriert, als Punkte innerhalb der dunklen Box unsichtbar gemacht werden.

Nick Cox

Antworten:

In meinem Fall (zweite Darstellung) überlappen sich die Kerben nicht sinnvoll. Aber warum nimmt der Boden des Kastens auf der rechten Seite diese seltsame Form an? Wie erkläre ich das?

Es zeigt an, dass das 25. Perzentil ungefähr 21, das 75. Perzentil ungefähr 30,5 ist. Und die unteren und oberen Grenzen der Kerbe liegen bei 18 und 27.

Ein häufiger Grund ist, dass Ihre Verteilung verzerrt ist oder die Stichprobengröße gering ist. Die Grenze der Kerbe basiert auf:

$median \pm 1.57 \times \frac{IQR}{\sqrt{n}}$

Wenn der Abstand zwischen dem Median und dem 25. Perzentil und der Abstand zwischen dem Median und dem 75. Perzentil extrem unterschiedlich sind (wie der rechts) und / oder die Stichprobengröße gering ist, ist die Kerbe breiter. Wenn es breit genug ist, dass die Kerbgrenze extremer ist als das 25. und 75. Perzentil (auch bekannt als die Box), zeigt das Diagramm der gekerbten Box diese "Inside-Out" -Form an.

Pinguin_Kacht
quelle

Vielen Dank für Ihre ausführliche Erklärung. Lassen Sie mich fragen, warum die Unter- und Obergrenze der Kerbe bei 17 und 24 liegt, nicht bei 18 und 27 (auf dem rechten Boxplot).

Denis

@Denis, danke, dass du das verstanden hast. Ich habe es überarbeitet.

Penguin_Knight