Histogramme vermitteln einen guten Eindruck von der Verteilung einer Variablen. Box-Plots versuchen, dasselbe zu tun, geben jedoch kein so gutes Bild von der Verteilung dieser Variablen.
Ich verstehe nicht, warum Leute Boxplots verwenden. Histogramme sind in jeder Hinsicht besser. Gibt es einen Grund, warum ich beide verwenden würde?
Das einzige, was ich denke, dass Box Plots bieten, ist: Ausreißer! Es sagt uns, welche Beobachtungen Ausreißer sein können.
Antworten:
Die Tatsache, dass Box-Plots eher eine Zusammenfassung einer Verteilung liefern, kann in bestimmten Fällen auch als Vorteil angesehen werden. Beim Vergleich von Verteilungen geht es manchmal nicht um die Gesamtform, sondern darum, wo die Verteilungen im Verhältnis zueinander liegen. Das Nebeneinanderzeichnen der Quantile kann eine nützliche Methode sein, um uns nicht von anderen Details abzulenken, die uns möglicherweise nicht interessieren.
quelle
Im univariaten Fall liefern Box-Plots einige Informationen, die das Histogramm nicht liefert (zumindest nicht explizit). Das heißt, es wird normalerweise der Median, das 25. und das 75. Perzentil, min / max, angegeben, der kein Ausreißer ist, und die Punkte, die als Ausreißer gelten, werden explizit voneinander getrennt. Dies kann alles vom Histogramm aus "gemustert" werden (und im Falle von Ausreißern ist es möglicherweise besser, gemustert zu werden).
Der weitaus größere Vorteil ist jedoch der gleichzeitige Vergleich von Verteilungen über viele verschiedene Gruppen. Bei mehr als 10 Gruppen ist dies eine anstrengende Aufgabe mit nebeneinander angeordneten Histogrammen, die jedoch mit Boxplots sehr einfach zu bewältigen ist.
Wie Sie bereits erwähnt haben, sind Geigenpläne (oder Bohnenpläne) eher informative Alternativen. Sie erfordern jedoch etwas mehr statistische Kenntnisse als die Box-Plots (dh wenn sie einem nicht-statistischen Publikum präsentiert werden, kann dies ein wenig einschüchternder sein), und Box-Plots sind viel länger als Kernel-Dichteschätzer und daher populärer.
quelle
Wenn ich Ihnen ein Histogramm zeige und Sie frage, wo sich der Median befindet, ist es möglicherweise einige Zeit, bis Sie es herausgefunden haben ... und dann erhalten Sie nur eine Annäherung. Wenn ich dasselbe mit einem Boxplot mache, haben Sie es sofort; Wenn es das ist, woran Sie interessiert sind, gewinnen Boxplots offensichtlich.
Ich bin damit einverstanden, dass Boxplots nicht so effektiv sind wie eine Beschreibung der Verteilung einer einzelnen Stichprobe, da sie diese auf wenige Punkte reduzieren und Ihnen nicht viel sagen.
Wenn Sie jedoch viele Dutzend Distributionen vergleichen, kann es sein, dass alle Details mehr Informationen enthalten als leicht zu vergleichen sind. Möglicherweise möchten Sie die Informationen auf eine geringere Anzahl von Dingen reduzieren, die verglichen werden sollen.
Wenn mehr Informationen besser sind, gibt es viele bessere Möglichkeiten als das Histogramm. ein stamm- und blattplot zum beispiel oder ein ecdf / quantil-plot.
Oder Sie können einem Histogramm Informationen hinzufügen:
(Handlungen aus dieser Antwort )
Die erste davon - das Hinzufügen eines schmalen Boxplots zum Rand - bietet Ihnen alle Vorteile, die Sie aus beiden Anzeigen ziehen können.
quelle
Balkendiagramme liefern nur den Bereich der Beobachtungshäufigkeit, während Box-Diagramme besser aussagen, wo mehrere Parameter einer Verteilung liegen, beispielsweise der Mittelwert und die Abweichungen, die Balkendiagramme nicht können. Box-Plots werden daher als effektives Vergleichswerkzeug verwendet, wenn man mehrere Verteilungen hat.
quelle