Zeige Durchschnitt statt Median im Boxplot [geschlossen]

15

Beim Plotten eines Boxplots mit Python Matplotblib sind die Linien auf halber Höhe des Plots der Median der Verteilung.

Gibt es eine Möglichkeit, stattdessen die Leitung im Durchschnitt zu haben. Oder um es daneben in einem anderen Stil zu zeichnen.

Wird es meine Leser wirklich verwirren, wenn ich den Durchschnitt nehme, weil die Linie der Median ist?

Peter Smit
quelle

Antworten:

25

Dieser Code veranlasst die Boxplots, einen Kreis zu platzieren, der den Mittelwert für jede Box markiert. Sie können ein anderes Symbol verwenden, indem Sie das Marker- Argument im Aufruf von angeben scatter.

import numpy as np
import pylab

# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)

# mark the mean    
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)

Alt-Text

ars
quelle
3
Lösungen mit R
James finden
1
@ James: Ich versuche nicht, ein Idiot zu sein und dich herauszusuchen, aber dein Kommentar wirft eine Frage von mir auf. Warum muss jemand immer vorschlagen, R zu verwenden , wenn jemand in diesem Forum explizit fragt, wie etwas mit einer Nicht-R-Sprache zu tun ist (da R de facto die Standardeinstellung ist)? Ich finde das Gegenteil nicht viel. SAS-Programmierer kommentieren im Allgemeinen nicht "Wie mache ich X in R?" Fragen mit "So geht's in SAS ...". Ich weiß, die Leute lieben R (und ich auch), aber ...
Josh Hemann
20

Zur Beantwortung Ihrer zweiten Frage: Ja, ich denke, es wird verwirrend sein, die Linie anstelle des Medians auf den Mittelwert zu setzen. Die genauen Regeln für die Länge der "Whisker" (falls vorhanden) und die Behandlung von Ausreißern variieren, aber jeder verwendet das Kästchen weiterhin als Anzeige des Medians sowie des unteren und oberen Quartils. Bei stark schräg gestellten Verteilungen könnte der Mittelwert außerhalb des Rahmens liegen, was sehr seltsam aussehen würde. Häufig wird verwendet, dass der Median zum Interquartilbereich gehört, während der Mittelwert zur Standardabweichung (oder zum Standardfehler des Mittelwerts, wenn Sie eher an Inferenz als an Datenbeschreibung interessiert sind) gehört. Wenn Sie den Mittelwert visuell darstellen möchten, würde ich ein anderes Symbol verwenden, um ihn anzuzeigen, um Verwirrung zu vermeiden.

ein Stop
quelle