Box-and-Whisker-Plot für die multimodale Verteilung

13

Kann ich Box-and-Whisker-Diagramme auch für die multimodale Verteilung oder nur für die unimodale Verteilung verwenden?

user1091344
quelle
Der übliche Begriff für eine Distribution mit mehr als einem Modus wäre " multimodal ". Wenn es das ist, was du meinst, bearbeite es bitte, um den üblichen Begriff zu verwenden. Wenn Sie etwas anderes meinen, definieren Sie bitte den Begriff.
Glen_b -Reinstate Monica
1
Box-Plots sind bei komplizierten Verteilungsformen nicht immer hilfreich. Bimodale ... multimodale Formen (ich vermute, das ist ein häufigerer Begriff als "polymodale") werden häufig ausgeblendet. Viel hängt davon ab, wie stark die Abweichung von der Unimodalität ist. Sonst klingelt keine Glocke und es erfolgt keine Fehlermeldung. Aber selbst ein Histogramm oder eine Schätzung der Kerndichte kann komplizierte Verteilungen zerstören. Einige betrachten dies als ein Merkmal, da es leicht ist, Modi zu akzeptieren, die nur Macken in einem Beispiel sind. Ich würde sagen, dass die einzige Art von Handlung, die keine Informationen verliert, eine Quantilhandlung ist.
Nick Cox
@ Glen_b habe ich. In meinem Buch sprechen sie von polymodaler Verteilung. Ist unimodal für einen Peak richtig?
user1091344
1
Sie sicherlich kann eine Box-Plot verwenden - wen würden Sie aufhören? Das Problem ist, dass das übliche Boxplot keine Angabe über die Anzahl der Modi enthält (obwohl es Modifikationen von Boxplots gibt, die Multimodalität anzeigen können). Boxplots sind besser, wenn sich das Interesse auf gruppenübergreifende Vergleiche von Standort und Streuung (über viele Gruppen) konzentriert, als wenn die Verteilungsform von direktem Interesse ist. Wenn Multimodalität wichtig ist, um zu zeigen - insbesondere wenn es nur wenige Gruppen gibt - würde ich dringend empfehlen, ein anderes Display oder mehrere zu verwenden. (Ich werde meinen Kommentar zu einer Antwort erweitern, wenn ich kann.)
Glen_b
1
Ihre Beweise veranlassen uns nicht, gut über dieses Buch nachzudenken.
Nick Cox

Antworten:

20

Das Problem ist, dass der übliche Boxplot * im Allgemeinen keine Angabe über die Anzahl der Modi machen kann. Während es in einigen (im Allgemeinen seltenen) Fällen möglich ist, einen eindeutigen Hinweis darauf zu erhalten, dass die kleinste Anzahl von Modi 1 überschreitet, stimmt ein bestimmtes Boxplot in der Regel mit einer oder einer größeren Anzahl von Modi überein.

* Es wurden verschiedene Modifikationen der üblichen Boxplot-Arten vorgeschlagen, die mehr dazu beitragen, Änderungen in der Dichte anzuzeigen und mehrere Modi zu identifizieren, aber ich denke nicht, dass dies der Zweck dieser Frage ist.

Zum Beispiel, während dieses Grundstück hat die Anwesenheit von mindestens zwei Modi zeigen (die Daten wurden erzeugt , um genau zwei haben) -

Bildbeschreibung hier eingeben

Umgekehrt hat dieses Modell zwei sehr klare Modi in seiner Verteilung, aber das kann man anhand des Boxplots überhaupt nicht erkennen:

Bildbeschreibung hier eingeben

n=

Tatsächlich Figur 1 hier (was ich glaube ist ein Arbeitspapier später in veröffentlicht [1]) zeigt vier verschiedene Datensätze mit dem gleichen Box - Plot.

Ich habe diese Daten nicht zur Hand, aber es ist eine triviale Angelegenheit, einen ähnlichen Datensatz zu erstellen - wie im obigen Link zur Fünf-Zahlen-Zusammenfassung angegeben, müssen wir unsere Verteilungen nur auf die rechteckigen Felder beschränken, die die Zusammenfassung mit fünf Zahlen schränkt uns auf ein.

Hier ist der R-Code, der ähnliche Daten wie im Artikel erzeugt:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Hier ist eine ähnliche Anzeige wie auf dem Papier der obigen Daten (außer dass ich hier alle vier Boxplots zeige):

Bildbeschreibung hier eingeben

Beachten Sie jedoch, dass Histogramme auch Probleme haben können . in der Tat sehen wir hier eines seiner Probleme, weil die Verteilung im dritten "Peak" -Histogramm tatsächlich deutlich bimodal ist; Die Breite des Histogrammfachs ist einfach zu groß, um es anzuzeigen. Wie Nick Cox in Kommentaren ausführt, können Schätzungen der Kerneldichte auch den Eindruck von der Anzahl der Modi beeinflussen (manchmal werden Modi verwischt ... oder manchmal werden kleine Modi vorgeschlagen, bei denen in der ursprünglichen Verteilung keine vorhanden sind). Man muss auf die Interpretation vieler gängiger Anzeigen achten.

Es gibt Modifikationen des Boxplots, die die Multimodalität besser anzeigen können (unter anderem Vasen-, Geigen- und Bohnenplots). In manchen Situationen können sie nützlich sein, aber wenn ich Modi finden möchte, schaue ich normalerweise auf eine andere Art von Anzeige.

Boxplots sind besser, wenn sich das Interesse auf Vergleiche von Standort und Ausbreitung (und oft auch auf Schiefe) konzentriert

x4

[1]: Choonpradub, C. & McNeil, D. (2005),
"Kann das Boxplot verbessert werden?"
Songklanakarin J. Sci. Technol. , 27 : 3, S. 649-657.
http://www.jourlib.org/paper/2081800
pdf

Glen_b - Setzen Sie Monica wieder ein
quelle
2
Zwei allgemeinere Kommentare zu den Modi. 1. Ein guter Test für ein bestimmtes Modalitätsmuster besteht darin, ob es in Proben derselben Größe wiederholt auftritt. Ich habe die Erfahrung gemacht, dass Modi in diesem Sinne extrem launisch sein können. 2. Bei der Betrachtung von Modi lohnt es sich immer zu fragen, ob ein Modus eine inhaltliche Interpretation hat. Aber jedes Argument kann falsch sein; Wenn ich mich richtig erinnere, würden die meisten Leute vermuten, dass eine Mischung aus Männern und Frauen der Höhenverteilung eine Bimodalität verleiht, aber es ist selbst bei großen Proben hoher Qualität schwer zu erkennen.
Nick Cox
1
@ NickCox danke; Eigentlich hätte ich gedacht, dass Höhen nicht bimodal sein würden. Stellen Sie sich vor, wir betrachteten (als grobe Annäherung an die Realität) zwei Normalverteilungen mit ähnlichen Standardabweichungen, deren Mittelwerte sich um ungefähr 1 s unterscheiden, mit ungefähr so ​​vielen Männern wie Frauen. Dann ist die kombinierte (Mischung aus zwei Normalen) Verteilung tatsächlich unimodal. Die Realität ist etwas komplexer, natürlich - beide Verteilungen sind Mischungen von ethnischen Gruppen, sind auch innerhalb von Geschlechtern und ethnischen Gruppen ungleichmäßig, haben unterschiedliche Unterschiede und die Mittel unterscheiden sich um mehr als eine Sekunde, aber das Ergebnis (Unimodalität) sollte uns nicht überraschen
Glen_b -Reinstate Monica
3
Es ist erwähnenswert, dass JW Tukey in seiner exploratorischen Datenanalyse (Reading, MA: Addison-Wesley, 1977) ein Punktdiagramm von Rayleighs Daten als bimodales Muster, für das Box-Diagramme unbrauchbar sind, aufgenommen hat, was zur Entdeckung von Argon führte Anzeige, in Tukeys Fall ein Punktdiagramm, wird benötigt, um die Struktur zu sehen. Tukey nannte sich bekanntlich Box-Plot und war nicht so bekannt wie sein Neuerfinder.
Nick Cox
7

Es gibt mehrere Möglichkeiten, Multimodalität mit R zu erkennen. Die Daten für die folgenden Diagramme wurden mit drei Modi (-3,0,1) generiert. Das Boxplot ist deutlich besser als die anderen (das Violinplot sieht aus, als hätte es unterschiedliche Standardeinstellungen für die Kerneldichte), aber keiner unterscheidet wirklich zwischen dem 0- und dem 1-Modus. Es gibt wirklich wenige Gründe, Boxplots im Computerzeitalter nicht mehr zu verwenden. Warum Informationen wegwerfen?

Bildbeschreibung hier eingeben

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Livid
quelle