Wie präsentiert man ein Box-Grundstück mit einem extremen Ausreißer?

Ich könnte eine Anleitung zur Präsentation einiger Daten gebrauchen.

Diese erste Auftragung ist ein Fall-Kontroll-Vergleich für das Cytokin IL-10. Ich habe die y-Achse manuell so eingestellt, dass sie 99% der Daten enthält.

IL-10 Mit manueller Y-Achse

Ich habe dies manuell festgelegt, weil die Fallgruppe einen extremen Ausreißer aufweist. Mit Ausreißer

Meine Mitarbeiter zögern, eine Ausreißerentfernung für unseren Datensatz durchzuführen. Ich bin damit einverstanden, aber sie möchten lieber nicht. Das wäre die naheliegende Lösung. Aber wenn ich alle Daten behalten und diesen Ausreißer nicht entfernen möchte, wie kann ich diesen Boxplot optimal darstellen? Achse teilen? Ist es akzeptabel, nur das erste Diagramm zu verwenden und zu beachten, dass es so konstruiert wurde, dass es alle Daten enthält? (Diese Option fühlt sich für mich unehrlich an). Jeder Rat wäre toll.

r data-visualization outliers boxplot presentation Alex C
quelle

Warum nicht beide Grundstücke präsentieren?

Alexis

Antworten:

Ich würde sagen, dass Sie bei Daten wie diesen wirklich Ergebnisse in einem transformierten Maßstab anzeigen müssen. Das ist der erste Imperativ und eine wichtigere Frage als genau das Zeichnen eines Boxplots.

Aber ich stimme Frank Harrell darin zu, etwas Informativeres als eine minimale Box-Handlung zu fordern, selbst wenn einige extreme Punkte identifiziert wurden. Sie haben genügend Platz, um viel mehr Informationen anzuzeigen. Hier ist eines von vielen Beispielen, ein Hybrid-Box- und Quantil-Plot. Wie in Ihren Daten werden zwei Gruppen verglichen.

Bildbeschreibung hier eingeben

Ich werde diese beiden Punkte einzeln aufgreifen und mehr sagen.

Transformierte Skala

Im einfachsten Fall können alle Ihre Werte positiv sein, und Sie sollten zuerst versuchen, eine logarithmische Skala zu verwenden.

Wenn Sie exakte Nullen haben, verbessert eine Quadratwurzel- oder Kubikwurzelskala die extreme Schiefe. Einige Leute sind mit log (Wert + Konstante) zufrieden, wobei Konstante am häufigsten 1 ist, um mit Nullen umzugehen.

Die Auswirkungen der Verwendung einer transformierten Skala auf Box-Plots sind subtil.

Wenn Sie die übliche Tukey-Konvention verwenden, nach der alle Punkte nach dem oberen Quartil + 1,5 IQR oder dem unteren Quartil - 1,5 IQR einzeln angezeigt werden, sollten diese Grenzwerte möglicherweise auf der transformierten Skala berechnet werden. Dies ist nicht dasselbe wie das Berechnen dieser Grenzwerte auf der ursprünglichen Skala und anschließendes Transformieren.

Stattdessen würde ich eine scheinbar immer noch in der Minderheit befindliche Konvention unterstützen, Quantile für die Enden von Whiskern auszuwählen. Einer von mehreren Vorteilen besteht darin, dass die Transformation von Quantil = Quantil der Transformation in den meisten Fällen für grafische Zwecke zumindest eng genug ist. (Das Kleingedruckte ist immer dann, wenn Quantile durch lineare Interpolation zwischen benachbarten Ordnungsstatistiken berechnet werden.)

Diese Quantilkonvention wurde von Cleveland (1985) ziemlich prominent vorgeschlagen. Für die Aufzeichnung wurden verbesserte Boxplots mit Boxen zu Quartilen, dünnere Boxen zu äußeren Oktilen (12,5 und 87,5% Punkte) und Streifenplots von Daten in der Geographie und Klimatologie von (z. B.) Matthews (1936) und Grove (1956) verwendet den Namen "Dispersionsdiagramme".

Mehr als Boxplots

Box Plots wurden von Tukey um 1970 neu erfunden und in seinem Buch von 1977 am sichtbarsten beworben. Sein Hauptanliegen war es, Grafiken zu fördern, die bei informellen Untersuchungen schnell mit Stift (CIL) und Papier gezeichnet werden konnten. Er schlug auch Möglichkeiten vor, mögliche Ausreißer zu identifizieren. Das war in Ordnung, aber jetzt haben wir alle Zugang zu Computern. Es ist kein Problem, Diagramme zu zeichnen, die zeigen, wenn nicht alle Daten, dann zumindest viel detaillierter. Die zusammenfassende Rolle von Boxplots ist wertvoll, aber eine Grafik kann auch die Feinstruktur zeigen, falls sie interessant oder wichtig ist. (Und was Forscher für uninteressant oder unwichtig halten, könnte für ihre Leser auffälliger sein.)

Es gibt viel Raum für höfliche Meinungsverschiedenheiten darüber, was genau am besten funktioniert, aber meiner Ansicht nach sind Grundstücke mit leeren Kisten ziemlich überverkauft.

Stata-Benutzer können mehr über das Programm erfahren, das die Figur in diesem statistischen Beitrag gezeichnet hat . Benutzer anderer Software sollten keine Schwierigkeiten haben, etwas so gut oder besser zu zeichnen (warum sonst diese Software verwenden?).

Cleveland, WS 1985. Elemente von Grafikdaten. Monterey, Kalifornien: Wadsworth.

Grove, AT 1956. Bodenerosion in Nigeria. In Steel, RW und Fisher, CA (Hrsg.) Geografische Aufsätze über britische tropische Länder. London: George Philip, 79-111.

Matthews, HA 1936. Eine neue Ansicht einiger bekannter indischer Regenfälle. Scottish Geographical Magazine 52: 84 & ndash; 97.

Tukey, JW 1977. Explorative Datenanalyse. Reading, MA: Addison-Wesley.

Nick Cox
quelle

Ich habe noch nie ein solches Nebeneinander von Boxplots und ECDFs gesehen. Wirklich cool! Was halten Sie von der Überlagerung der beiden ECDFs in einem separaten Panel?

Frank Harrell

@Frank Harrell Danke. Überlagerung ist auch eine gute Idee. Siehe z. B. stata-journal.com/sjpdf.html?articlenum=gr0018 für einige Beispiele in meiner Arbeit.

Nick Cox

Von Nicks hervorragender Antwort nichts wegzunehmen, was meiner Meinung nach einen Tick und eine Aufwertung wert ist - aber ich wollte einige Möglichkeiten ausloten.

Bei derart stark verzerrten Daten über mehrere Größenordnungen hinweg ist das Zeichnen in einem logarithmischen Maßstab oftmals recht aufschlussreich. Beachten Sie, dass Sie in den ursprünglichen Werten weiterhin Häkchen und Häkchenbezeichnungen haben können. (Ich stimme den Punkten von Nick in Bezug auf Transformationen zu, daher werde ich darauf nicht weiter eingehen.)

Eine andere Option neben der Transformation besteht darin, so etwas wie Ihre zweite Grafik zu erstellen, aber alle nicht gezeichneten Werte anzugeben:

$\$ Bildbeschreibung hier eingeben

Auf diese Weise entfernen Sie keine Ausreißer, sondern zeigen sie nur anders an.

Ich würde jedoch zusammen mit Frank und Nick vorschlagen, eine informativere Anzeige als ein einfaches Boxplot zu verwenden - die Kombination eines Boxplots mit einem Quantilplot in Nicks Beitrag scheint eine besonders gute Idee zu sein, obwohl man das Quantilplot leicht darüber (oder darunter) zeichnen könnte , wie hier) das entsprechende Kästchen statt daneben:

$\$ Bildbeschreibung hier eingeben

Wenn Sie so etwas nicht machen (zum Beispiel mit einem einfachen Boxplot), würde ich wesentlich schmalere Boxen vorschlagen.

Glen_b - Setzen Sie Monica wieder ein
quelle

Das Überlagern von Quantil- und Box-Plots ist ebenfalls attraktiv. Es wird betont, dass der Box-Plot eine Reduktion des Quantil-Plots darstellt, obwohl der Box-Plot dann für einige als überflüssig erscheinen könnte. Für eine starke Betonung der Beziehung zwischen den beiden Graphen siehe z. B. Parzen, E. 1979. Nichtparametrische statistische Datenmodellierung. Journal of the American Statistical Association 74: 105-121

Nick Cox

Haben Sie den OP-Datensatz? Oder kratzt du die Grafik / fälschst sie?

Nick Cox

@ Nick Im Grunde genommen fälsche ich es einfach; Ich habe die Extrempunkte effektiv abgekratzt (nur von Hand, es gab so wenige) und dann Werte unterhalb der oberen Quartile durch Stichproben von 3 Uniformen zwischen den bekannten Werten (den 3 Quartilen und dem Minimum) und zwischen den oberen Quartilen und dem Ende erzeugt der oberen Schnurrhaare mit Exponentialen, fügte dann die Extrempunkte hinzu (nur damit meine Boxplots ähnlich aussehen würden). Zumindest ist das der Kern der Idee. Die Extrempunkte sind nicht genau, daher sind die auf meinem Plot angegebenen Werte eher Beispiele.

Glen_b

@ Glen_b Ich kann eine separate Frage stellen, wenn Sie es vorziehen, aber welche Methode haben Sie verwendet, um den Quantil-Plot mit dem Boxplot zu überlagern?

Tavrock

@ Tavrock Es ist zweieinhalb Jahre her, dass ich das geschrieben habe, also schätze ich. Das offensichtliche Ziel ist pointses, die Quantilwerte anzuzeigen (es sieht xs=sort(x); points(ppoints(xs),xs)ungefähr so aus wie nach dem Boxplot, aber bei genauer Betrachtung befinden sich die Punkte unter dem Boxplot, also könnte es ein Plot gewesen sein, dann Boxplot mit add = TRUE oder so Vielleicht Boxplot gewesen, dann Punkte, dann Boxplot über die Spitze ... Vielleicht

Glen_b - Monica

Ich bevorzuge Extended Box Plot oder Violin Plot, weil sie so viel mehr Informationen enthalten. Ich skaliere erweiterte Box-Plots auf die 0,01- und 0,99-Quantile der kombinierten Proben. Weitere Informationen finden Sie unter http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf .

Frank Harrell
quelle