Ich könnte eine Anleitung zur Präsentation einiger Daten gebrauchen.
Diese erste Auftragung ist ein Fall-Kontroll-Vergleich für das Cytokin IL-10. Ich habe die y-Achse manuell so eingestellt, dass sie 99% der Daten enthält.
Ich habe dies manuell festgelegt, weil die Fallgruppe einen extremen Ausreißer aufweist.
Meine Mitarbeiter zögern, eine Ausreißerentfernung für unseren Datensatz durchzuführen. Ich bin damit einverstanden, aber sie möchten lieber nicht. Das wäre die naheliegende Lösung. Aber wenn ich alle Daten behalten und diesen Ausreißer nicht entfernen möchte, wie kann ich diesen Boxplot optimal darstellen? Achse teilen? Ist es akzeptabel, nur das erste Diagramm zu verwenden und zu beachten, dass es so konstruiert wurde, dass es alle Daten enthält? (Diese Option fühlt sich für mich unehrlich an). Jeder Rat wäre toll.
Antworten:
Ich würde sagen, dass Sie bei Daten wie diesen wirklich Ergebnisse in einem transformierten Maßstab anzeigen müssen. Das ist der erste Imperativ und eine wichtigere Frage als genau das Zeichnen eines Boxplots.
Aber ich stimme Frank Harrell darin zu, etwas Informativeres als eine minimale Box-Handlung zu fordern, selbst wenn einige extreme Punkte identifiziert wurden. Sie haben genügend Platz, um viel mehr Informationen anzuzeigen. Hier ist eines von vielen Beispielen, ein Hybrid-Box- und Quantil-Plot. Wie in Ihren Daten werden zwei Gruppen verglichen.
Ich werde diese beiden Punkte einzeln aufgreifen und mehr sagen.
Transformierte Skala
Im einfachsten Fall können alle Ihre Werte positiv sein, und Sie sollten zuerst versuchen, eine logarithmische Skala zu verwenden.
Wenn Sie exakte Nullen haben, verbessert eine Quadratwurzel- oder Kubikwurzelskala die extreme Schiefe. Einige Leute sind mit log (Wert + Konstante) zufrieden, wobei Konstante am häufigsten 1 ist, um mit Nullen umzugehen.
Die Auswirkungen der Verwendung einer transformierten Skala auf Box-Plots sind subtil.
Wenn Sie die übliche Tukey-Konvention verwenden, nach der alle Punkte nach dem oberen Quartil + 1,5 IQR oder dem unteren Quartil - 1,5 IQR einzeln angezeigt werden, sollten diese Grenzwerte möglicherweise auf der transformierten Skala berechnet werden. Dies ist nicht dasselbe wie das Berechnen dieser Grenzwerte auf der ursprünglichen Skala und anschließendes Transformieren.
Stattdessen würde ich eine scheinbar immer noch in der Minderheit befindliche Konvention unterstützen, Quantile für die Enden von Whiskern auszuwählen. Einer von mehreren Vorteilen besteht darin, dass die Transformation von Quantil = Quantil der Transformation in den meisten Fällen für grafische Zwecke zumindest eng genug ist. (Das Kleingedruckte ist immer dann, wenn Quantile durch lineare Interpolation zwischen benachbarten Ordnungsstatistiken berechnet werden.)
Diese Quantilkonvention wurde von Cleveland (1985) ziemlich prominent vorgeschlagen. Für die Aufzeichnung wurden verbesserte Boxplots mit Boxen zu Quartilen, dünnere Boxen zu äußeren Oktilen (12,5 und 87,5% Punkte) und Streifenplots von Daten in der Geographie und Klimatologie von (z. B.) Matthews (1936) und Grove (1956) verwendet den Namen "Dispersionsdiagramme".
Mehr als Boxplots
Box Plots wurden von Tukey um 1970 neu erfunden und in seinem Buch von 1977 am sichtbarsten beworben. Sein Hauptanliegen war es, Grafiken zu fördern, die bei informellen Untersuchungen schnell mit Stift (CIL) und Papier gezeichnet werden konnten. Er schlug auch Möglichkeiten vor, mögliche Ausreißer zu identifizieren. Das war in Ordnung, aber jetzt haben wir alle Zugang zu Computern. Es ist kein Problem, Diagramme zu zeichnen, die zeigen, wenn nicht alle Daten, dann zumindest viel detaillierter. Die zusammenfassende Rolle von Boxplots ist wertvoll, aber eine Grafik kann auch die Feinstruktur zeigen, falls sie interessant oder wichtig ist. (Und was Forscher für uninteressant oder unwichtig halten, könnte für ihre Leser auffälliger sein.)
Es gibt viel Raum für höfliche Meinungsverschiedenheiten darüber, was genau am besten funktioniert, aber meiner Ansicht nach sind Grundstücke mit leeren Kisten ziemlich überverkauft.
Stata-Benutzer können mehr über das Programm erfahren, das die Figur in diesem statistischen Beitrag gezeichnet hat . Benutzer anderer Software sollten keine Schwierigkeiten haben, etwas so gut oder besser zu zeichnen (warum sonst diese Software verwenden?).
Cleveland, WS 1985. Elemente von Grafikdaten. Monterey, Kalifornien: Wadsworth.
Grove, AT 1956. Bodenerosion in Nigeria. In Steel, RW und Fisher, CA (Hrsg.) Geografische Aufsätze über britische tropische Länder. London: George Philip, 79-111.
Matthews, HA 1936. Eine neue Ansicht einiger bekannter indischer Regenfälle. Scottish Geographical Magazine 52: 84 & ndash; 97.
Tukey, JW 1977. Explorative Datenanalyse. Reading, MA: Addison-Wesley.
quelle
Von Nicks hervorragender Antwort nichts wegzunehmen, was meiner Meinung nach einen Tick und eine Aufwertung wert ist - aber ich wollte einige Möglichkeiten ausloten.
Bei derart stark verzerrten Daten über mehrere Größenordnungen hinweg ist das Zeichnen in einem logarithmischen Maßstab oftmals recht aufschlussreich. Beachten Sie, dass Sie in den ursprünglichen Werten weiterhin Häkchen und Häkchenbezeichnungen haben können. (Ich stimme den Punkten von Nick in Bezug auf Transformationen zu, daher werde ich darauf nicht weiter eingehen.)
Eine andere Option neben der Transformation besteht darin, so etwas wie Ihre zweite Grafik zu erstellen, aber alle nicht gezeichneten Werte anzugeben:
Auf diese Weise entfernen Sie keine Ausreißer, sondern zeigen sie nur anders an.
Ich würde jedoch zusammen mit Frank und Nick vorschlagen, eine informativere Anzeige als ein einfaches Boxplot zu verwenden - die Kombination eines Boxplots mit einem Quantilplot in Nicks Beitrag scheint eine besonders gute Idee zu sein, obwohl man das Quantilplot leicht darüber (oder darunter) zeichnen könnte , wie hier) das entsprechende Kästchen statt daneben:
Wenn Sie so etwas nicht machen (zum Beispiel mit einem einfachen Boxplot), würde ich wesentlich schmalere Boxen vorschlagen.
quelle
points
es, die Quantilwerte anzuzeigen (es siehtxs=sort(x); points(ppoints(xs),xs)
ungefähr so aus wie nach dem Boxplot, aber bei genauer Betrachtung befinden sich die Punkte unter dem Boxplot, also könnte es ein Plot gewesen sein, dann Boxplot mit add = TRUE oder so Vielleicht Boxplot gewesen, dann Punkte, dann Boxplot über die Spitze ... VielleichtIch bevorzuge Extended Box Plot oder Violin Plot, weil sie so viel mehr Informationen enthalten. Ich skaliere erweiterte Box-Plots auf die 0,01- und 0,99-Quantile der kombinierten Proben. Weitere Informationen finden Sie unter http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf .
quelle