Während ich eine EDA durchführte, entschied ich mich, ein Box-Diagramm zu verwenden, um den Unterschied zwischen zwei Ebenen eines Faktors zu veranschaulichen.
Die Art und Weise, wie ggplot das Box-Diagramm renderte, war zufriedenstellend, aber leicht vereinfacht (erstes Diagramm unten). Während ich die Eigenschaften von Boxplots untersuchte, begann ich mit Kerben zu experimentieren.
Ich verstehe, dass Kerben den CI um den Median anzeigen und dass, wenn sich die Kerben zweier Kästchen nicht überlappen, es „starke Beweise“ gibt - bei einem Konfidenzniveau von 95% -, dass sich die Mediane unterscheiden.
In meinem Fall (zweite Darstellung) überlappen sich die Kerben nicht sinnvoll. Aber warum nimmt der Boden des Kastens auf der rechten Seite diese seltsame Form an?
Das Zeichnen der gleichen Daten in einem Geigenplot zeigte nichts Ungewöhnliches an der Wahrscheinlichkeitsdichte der entsprechenden Geige.
ggplot2
. Ich mag die Idee, auch die einzelnen Datenpunkte zu zeichnen, aber es ist insofern frustriert, als Punkte innerhalb der dunklen Box unsichtbar gemacht werden.Antworten:
Es zeigt an, dass das 25. Perzentil ungefähr 21, das 75. Perzentil ungefähr 30,5 ist. Und die unteren und oberen Grenzen der Kerbe liegen bei 18 und 27.
Ein häufiger Grund ist, dass Ihre Verteilung verzerrt ist oder die Stichprobengröße gering ist. Die Grenze der Kerbe basiert auf:
Wenn der Abstand zwischen dem Median und dem 25. Perzentil und der Abstand zwischen dem Median und dem 75. Perzentil extrem unterschiedlich sind (wie der rechts) und / oder die Stichprobengröße gering ist, ist die Kerbe breiter. Wenn es breit genug ist, dass die Kerbgrenze extremer ist als das 25. und 75. Perzentil (auch bekannt als die Box), zeigt das Diagramm der gekerbten Box diese "Inside-Out" -Form an.
quelle