Welche Informationen liefert ein Box-Plot, die ein Histogramm nicht liefert?

13

Histogramme vermitteln einen guten Eindruck von der Verteilung einer Variablen. Box-Plots versuchen, dasselbe zu tun, geben jedoch kein so gutes Bild von der Verteilung dieser Variablen.

Ich verstehe nicht, warum Leute Boxplots verwenden. Histogramme sind in jeder Hinsicht besser. Gibt es einen Grund, warum ich beide verwenden würde?

Das einzige, was ich denke, dass Box Plots bieten, ist: Ausreißer! Es sagt uns, welche Beobachtungen Ausreißer sein können.

John
quelle
1
Ist das Histogramm in jeder Hinsicht schlechter als eine Darstellung der gesamten Verteilung?
Anthony Martin
2
Hängt davon ab, was Sie möchten. Mit einem Box-Plot können Sie einige genaue Werte (z. B. Median, P75) erhalten, die Sie mit einem Histogramm nicht haben. Es zeigt weniger Informationen an, ist aber synthetischer. Mein Punkt ist, dass selbst ein Histogramm eine Vereinfachung und eine Verschwendung von Informationen im Vergleich zur gesamten Verteilung darstellt. Aber es kann einfacher zu bedienen sein
Anthony Martin
2
Ein entgegengesetzter Standpunkt zur Nützlichkeit von Histogrammen wurde in dem vielbeachteten Beitrag unter stats.stackexchange.com/a/51753 (der durch Durchsuchen unserer Website nach "Histogramm" gefunden werden kann) klar zum Ausdruck gebracht und gut illustriert .
Whuber
3
Interessanter Gedanke - aber eine Vergrößerung des Behälters würde das Histogramm auf eine Boxplot-ähnliche Zahl reduzieren, während die unglückliche Abhängigkeit von der Wahl der Schnittpunkte erhalten bleibt. Die wahren Vorzüge von Boxplots lassen sich am besten einschätzen, wenn man Tukeys Verwendung der N-Letter-Zusammenfassung für die explorative Analyse multivariater Daten untersucht und daran denkt, dass er zu dieser Zeit mit Bleistift und Papier gerechnet hat. Bei Visualisierungen wie einer "wandernden schematischen Spur" würden andere univariate Zusammenfassungen von bedingten Antworten wie Histogramme oder Geigenzeichnungen einfach nicht funktionieren.
whuber
1
Die beiden Fehler (imo) des Histogramms treten auf, wenn es nur wenige Stichproben gibt oder wenn die Kästchen die falsche Größe haben. Die Schwäche eines guten Boxplots (und ich denke, JMP-Variabilität, wenn ich es sage) sind Multimodalität und feine Details. Ein Ort, an dem der Boxplot leuchtet, ist, wenn es nur wenige Proben gibt. Ich mag es auch, wenn es eine Reihe von interagierenden Variablen auf verschiedenen Ebenen gibt - also das JMP-Variabilitätsdiagramm.
EngrStudent

Antworten:

16

Die Tatsache, dass Box-Plots eher eine Zusammenfassung einer Verteilung liefern, kann in bestimmten Fällen auch als Vorteil angesehen werden. Beim Vergleich von Verteilungen geht es manchmal nicht um die Gesamtform, sondern darum, wo die Verteilungen im Verhältnis zueinander liegen. Das Nebeneinanderzeichnen der Quantile kann eine nützliche Methode sein, um uns nicht von anderen Details abzulenken, die uns möglicherweise nicht interessieren.

dsaxton
quelle
1
Das ist die beste Antwort. Boxplots sind besser zum Vergleichen von Verteilungen als Histogramme!
kjetil b halvorsen
14

Im univariaten Fall liefern Box-Plots einige Informationen, die das Histogramm nicht liefert (zumindest nicht explizit). Das heißt, es wird normalerweise der Median, das 25. und das 75. Perzentil, min / max, angegeben, der kein Ausreißer ist, und die Punkte, die als Ausreißer gelten, werden explizit voneinander getrennt. Dies kann alles vom Histogramm aus "gemustert" werden (und im Falle von Ausreißern ist es möglicherweise besser, gemustert zu werden).

Der weitaus größere Vorteil ist jedoch der gleichzeitige Vergleich von Verteilungen über viele verschiedene Gruppen. Bei mehr als 10 Gruppen ist dies eine anstrengende Aufgabe mit nebeneinander angeordneten Histogrammen, die jedoch mit Boxplots sehr einfach zu bewältigen ist.

Wie Sie bereits erwähnt haben, sind Geigenpläne (oder Bohnenpläne) eher informative Alternativen. Sie erfordern jedoch etwas mehr statistische Kenntnisse als die Box-Plots (dh wenn sie einem nicht-statistischen Publikum präsentiert werden, kann dies ein wenig einschüchternder sein), und Box-Plots sind viel länger als Kernel-Dichteschätzer und daher populärer.

Cliff AB
quelle
3
+1. Korrekturen jedoch, Box-Plots liefern Mediane, keine Mittelwerte.
Greenparker
3
Jeder kann Recht haben. Box-Diagramme, wie sie normalerweise dargestellt werden, zeigen Mediane (ich habe dies bestritten gesehen, kann mich aber nicht erinnern, ein Beispiel gesehen zu haben). Bei einigen Implementierungen können Sie jedoch auch Mittel angeben. Das ist oft eine gute Idee.
Nick Cox
Vielen Dank für den Hinweis. Ich denke immer (fälschlicherweise), dass es normalerweise der Mittelwert ist, der in extremen Fällen zu einigen sehr seltsamen Handlungen führen kann.
Cliff AB
1
Es wäre schön, wenn Bilder mit dabei wären, um den Wert von Nebeneinander-Vergleichen mit Boxplots gegen Histogramme zu zeigen
Rudolf Olah
7
  1. Wenn ich Ihnen ein Histogramm zeige und Sie frage, wo sich der Median befindet, ist es möglicherweise einige Zeit, bis Sie es herausgefunden haben ... und dann erhalten Sie nur eine Annäherung. Wenn ich dasselbe mit einem Boxplot mache, haben Sie es sofort; Wenn es das ist, woran Sie interessiert sind, gewinnen Boxplots offensichtlich.

  2. Ich bin damit einverstanden, dass Boxplots nicht so effektiv sind wie eine Beschreibung der Verteilung einer einzelnen Stichprobe, da sie diese auf wenige Punkte reduzieren und Ihnen nicht viel sagen.

    Wenn Sie jedoch viele Dutzend Distributionen vergleichen, kann es sein, dass alle Details mehr Informationen enthalten als leicht zu vergleichen sind. Möglicherweise möchten Sie die Informationen auf eine geringere Anzahl von Dingen reduzieren, die verglichen werden sollen.

  3. Wenn mehr Informationen besser sind, gibt es viele bessere Möglichkeiten als das Histogramm. ein stamm- und blattplot zum beispiel oder ein ecdf / quantil-plot.

    Oder Sie können einem Histogramm Informationen hinzufügen:

Histogramm mit Rand-Boxplot Histogramm Rugplot mit Jitter Histogramm mit Stripchart

(Handlungen aus dieser Antwort )

Die erste davon - das Hinzufügen eines schmalen Boxplots zum Rand - bietet Ihnen alle Vorteile, die Sie aus beiden Anzeigen ziehen können.

Glen_b - Setzen Sie Monica wieder ein
quelle
1

Balkendiagramme liefern nur den Bereich der Beobachtungshäufigkeit, während Box-Diagramme besser aussagen, wo mehrere Parameter einer Verteilung liegen, beispielsweise der Mittelwert und die Abweichungen, die Balkendiagramme nicht können. Box-Plots werden daher als effektives Vergleichswerkzeug verwendet, wenn man mehrere Verteilungen hat.

Shiv_90
quelle
Es ist selten, dass ein Boxplot einen Mittelwert anzeigt - fast immer verwenden sie Mediane - und sie repräsentieren niemals Varianzen direkt. Beachten Sie auch, dass diese Größen normalerweise nicht als "Parameter einer Verteilung" betrachtet werden: Sie sind beschreibende Statistiken für einen Datenstapel .
whuber
Genau, sie sind ein gutes Werkzeug, um eine Verteilung zu beschreiben, ohne zu viel zu berechnen. Und sie zeigen mehr Mediane an, und da in vielen Fällen beide Maße übereinstimmen, sind Box-Plots ein nützliches Werkzeug, um auch den Mittelwert zu approximieren.
Shiv_90
Ihr Kommentar scheint die Daten weiterhin mit der zugrunde liegenden Verteilung zu verwechseln . Es ist sehr selten, dass der Mittelwert in einem Datenstapel dem Median entspricht. Darüber hinaus besteht eine der besseren und am häufigsten verwendeten Verwendungen des Boxplots darin, Asymmetrie zu identifizieren, was normalerweise einen wichtigen Unterschied zwischen Mittelwert und Median impliziert. Eines der Grundprinzipien hinter der ursprünglichen Konzeption des Boxplots ist, dass es sich um ein robustes Erkundungsinstrument handelt - was impliziert, dass es besser nicht auf sensiblen Statistiken wie dem Mittelwert oder der Varianz basiert.
Whuber