Gibt es eine Boxplot-Variante für Poisson-verteilte Daten?

Ich möchte wissen, ob es eine Boxplot-Variante gibt, die an verteilte Poisson-Daten (oder möglicherweise an andere Distributionen) angepasst ist.

Bei einer Gaußschen Verteilung mit Whiskern bei L = Q1 - 1,5 IQR und U = Q3 + 1,5 IQR hat das Boxplot die Eigenschaft, dass es ungefähr so viele niedrige Ausreißer (Punkte unter L) wie hohe Ausreißer (Punkte über U) gibt ).

Wenn die Daten jedoch Poisson-verteilt sind, gilt dies nicht mehr, da wir aufgrund der positiven Schiefe Pr (X <L) <Pr (X> U) erhalten . Gibt es eine alternative Möglichkeit, die Whisker so zu platzieren, dass sie zu einer Poisson-Verteilung passen?

data-visualization poisson-distribution boxplot caas
quelle

Versuchen Sie es zuerst zu protokollieren? Sie können auch sagen, wofür Ihr Boxplot "gut angepasst" sein soll.

Conjugateprior

Es gibt ein Problem bei solchen Modifikationen: Die Leute sind an die Standard-Boxplot-Definition gewöhnt und werden sie höchstwahrscheinlich annehmen, wenn Sie sich das Diagramm ansehen, ob es Ihnen gefällt oder nicht. Dies kann also mehr Verwirrung als Gewinn bringen.

@mbq:> Bei Boxplots werden zwei Funktionen zu einem Tool kombiniert. eine Datenvisualisierungsfunktion (die Box) und eine Ausreißererkennungsfunktion (die Whisker). Was Sie sagen, trifft absolut auf das erstere zu, aber das letztere könnte eine Neigungsanpassung gebrauchen.

User603

@conjugateprior Hier ist ein Poisson-Beispiel: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 ... bemerken Sie ein Problem, wenn Sie nur Protokolle aufnehmen?

Glen_b

@ Glen_b Das muss der Grund sein, warum es ein Kommentar ist, keine Antwort. Und warum hat es zwei Teile.

Conjugateprior

Antworten:

Boxplots sollten nicht in allen Fällen eine geringe Wahrscheinlichkeit des Überschreitens der Enden der Whisker gewährleisten: Sie sind als einfache grafische Charakterisierungen des Hauptteils eines Datensatzes gedacht und werden in der Regel verwendet. Als solche sind sie auch dann in Ordnung, wenn die Daten stark verzerrte Verteilungen aufweisen (obwohl sie möglicherweise nicht so viele Informationen enthalten wie ungefähr ungezerrte Verteilungen).

Wenn Boxplots wie bei einer Poisson-Verteilung verzerrt werden, besteht der nächste Schritt darin, die zugrunde liegende Variable erneut auszudrücken (mit einer monotonen, zunehmenden Transformation) und die Boxplots neu zu zeichnen. Da die Varianz einer Poisson-Verteilung proportional zum Mittelwert ist, ist die Quadratwurzel eine gute Transformation.

Jedes Boxplot zeigt 50 iid-Zeichnungen aus einer Poisson-Verteilung mit gegebener Intensität (von 1 bis 10, mit zwei Versuchen für jede Intensität). Beachten Sie, dass die Schiefe tendenziell gering ist.

Seite an Seite Boxplots

Dieselben Daten auf einer Quadratwurzelskala weisen tendenziell Boxplots auf, die etwas symmetrischer sind und (mit Ausnahme der niedrigsten Intensität) unabhängig von der Intensität ungefähr gleiche IQRs aufweisen.

Boxplots transformierter Daten

Ändern Sie den Boxplot-Algorithmus also nicht, sondern drücken Sie die Daten erneut aus.

$X$ $U$ $L$ $n$ $n=9$

Histogramm der Chancen

(Da die Normalverteilung symmetrisch ist, gilt dieses Histogramm für beide Zäune.) Der Logarithmus von 1% / 2 beträgt ungefähr -2,3. In den meisten Fällen ist die Wahrscheinlichkeit natürlich höher. In etwa 16% der Fälle sind es mehr als 10%!

$n$

whuber
quelle

+1, ich hatte diesen Thread noch nicht gesehen. Ich habe (glaube ich) den gleichen Punkt, der hier nach der horizontalen Regel erörtert wird, in diesem Beitrag auf eine andere Weise formuliert: ob Fälle gelöscht werden sollen, die von statistischer Software als Ausreißer gekennzeichnet werden .

gung - Reinstate Monica

Ja, das ist der gleiche Punkt @ Gung - und Sie haben dort eine schöne Antwort gepostet.

Whuber

Ich kenne eine Verallgemeinerung von Standard-Boxplots, bei denen die Länge der Whisker angepasst wird, um verzerrte Daten zu berücksichtigen. Die Details werden in einem sehr klaren und prägnanten Whitepaper (Vandervieren, E., Hubert, M. (2004), "Ein angepasster Boxplot für verzerrte Verteilungen", siehe hier ) besser erklärt .

$\verb+R+$ $\verb+robustbase::adjbox()+$ $\verb+libra+$

Ich persönlich finde es eine bessere Alternative zur Datenumwandlung (obwohl es auch auf einer Ad-hoc-Regel basiert, siehe Whitepaper).

Übrigens habe ich hier etwas zu Whubers Beispiel hinzuzufügen. In dem Maße, in dem wir über das Verhalten der Whisker sprechen, sollten wir auch überlegen, was bei der Betrachtung kontaminierter Daten geschieht:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

In diesem Kontaminationsmodell hat B1 im Wesentlichen eine logarithmische Normalverteilung, abgesehen von 20 Prozent der Daten, die zur Hälfte links und zur Hälfte rechts von Ausreißern liegen (der Aufschlüsselungspunkt von adjbox ist derselbe wie der von regulären Boxplots, dh es wird höchstens davon ausgegangen 25 Prozent der Daten können fehlerhaft sein.

Die Grafiken zeigen die klassischen Boxplots der transformierten Daten (unter Verwendung der Quadratwurzel-Transformation).

klassisches Boxplot auf Quadratwurzel-Transformation der Daten

und das angepasste Boxplot der nicht transformierten Daten.

Boxplot nicht transformierter Daten angepasst

Im Vergleich zu angepassten Boxplots maskiert die erstere Option die tatsächlichen Ausreißer und kennzeichnet gute Daten als Ausreißer. Im Allgemeinen wird es zweckmäßig sein, Hinweise auf Asymmetrien in den Daten zu verbergen, indem Sie beleidigende Punkte als Ausreißer klassifizieren.

In diesem Beispiel werden bei Verwendung des Standard-Boxplots auf der Quadratwurzel der Daten 13 Ausreißer (alle rechts) ermittelt, während im angepassten Boxplot 10 rechte und 14 linke Ausreißer ermittelt werden.

EDIT: angepasste Boxplots auf den Punkt gebracht.

In 'klassischen' Boxplots befinden sich die Whisker bei:

$Q_1$ -1,5 * IQR und + 1,5 * IQR $Q_3$

Dabei ist IQR der Interquantilbereich, das 25. Perzentil und das 75. Perzentil der Daten. Als Faustregel gilt, dass alles außerhalb des Zauns als zweifelhafte Daten betrachtet werden muss (der Zaun ist das Intervall zwischen den beiden Whiskern). $Q_1$ $Q_3$

Diese Faustregel ist ad-hoc: Die Begründung lautet, dass weniger als 1% der guten Daten nach dieser Regel als schlecht eingestuft würden, wenn der nicht kontaminierte Teil der Daten ungefähr Gaußsch ist.

Eine Schwäche dieser Zaunregel ist, wie vom OP hervorgehoben, dass die Länge der beiden Whisker identisch ist, was bedeutet, dass die Zaunregel nur dann Sinn macht, wenn der nicht kontaminierte Teil der Daten eine symmetrische Verteilung aufweist.

Ein gängiger Ansatz ist es, die Zaunregel beizubehalten und die Daten anzupassen. Die Idee besteht darin, die Daten unter Verwendung einer eintönigen Transformation mit Korrektur des Versatzes (Quadratwurzel oder Logarithmus oder allgemeiner Box-Cox-Transformationen) zu transformieren. Dies ist ein etwas chaotischer Ansatz: Er basiert auf zirkulärer Logik (die Transformation sollte so gewählt werden, dass die Schiefe des nicht kontaminierten Teils der Daten korrigiert wird, der zu diesem Zeitpunkt nicht beobachtbar ist) und die Interpretation der Daten erschwert visuell. In jedem Fall bleibt dies ein merkwürdiger Vorgang, bei dem man die Daten ändert, um eine schließlich Ad-hoc-Regel zu erhalten.

Eine Alternative besteht darin, die Daten unangetastet zu lassen und die Whisker-Regel zu ändern. Das angepasste Boxplot ermöglicht, dass die Länge jedes Whiskers gemäß einem Index variiert, der die Schiefe des nicht kontaminierten Teils der Daten misst:

$Q_1$ - 1,5 * IQR und + 1,5 * IQR $\exp(M,\alpha)$ $Q_3$ $\exp(M,\beta)$

Wo ist ein Index für die Schiefe des unbelasteten Teils der Daten ( das heißt, wie die mittleren ein Maß für Position für den unberührten Teil der Daten oder die MAD ein Maß für die Ausbreitung des unbelasteten Teil der Daten) und sind Zahlen, die so gewählt werden, dass bei nicht kontaminierten Schrägverteilungen die Wahrscheinlichkeit, außerhalb des Zauns zu liegen, in einer großen Sammlung von Schrägverteilungen relativ gering ist (dies ist der Ad-hoc-Teil der Zaunregel). $M$ $\alpha$ $\beta$

In Fällen, in denen der Großteil der Daten symmetrisch ist, ist und wir kehren zu den klassischen Whiskern zurück. $M\approx 0$

Die Autoren schlagen vor, das Med-Paar als Schätzer für (siehe Referenz im Whitepaper), da es sehr effizient ist (obwohl im Prinzip jeder robuste Skew-Index verwendet werden kann). Mit dieser Wahl von berechneten sie dann das optimale und empirisch (unter Verwendung einer großen Anzahl von versetzten Verteilungen) als: $M$ $M$ $\alpha$ $\beta$

$Q_1$ $\exp(-4M)$ $Q_3$ $\exp(3M)$ $M\geq 0$

$Q_1$ $\exp(-3M)$ $Q_3$ $\exp(4M)$ $M<0$

user603
quelle

Es würde mich interessieren, wie Sie mein Beispiel als "nicht hilfreich" bezeichnen - es nur als solches zu kennzeichnen, ist nicht konstruktiv. Ich gebe zu, dass das Beispiel in dem Sinne etwas enttäuschend ist, dass die Datentransformation keine spektakuläre Verbesserung darstellt. Das ist die Schuld der Poisson-Distributionen: Sie sind einfach nicht schief genug, um die Mühe dieser ganzen Analyse wert zu sein!

whuber

@whuber:> erstmal entschuldigung für den ton: er stammte aus einem nicht bearbeiteten ersten entwurf und wurde korrigiert (ich schreibe normalerweise kurz als notiz gemachte absätze und gehe sie dann wiederholt durch - dieser ging im verloren) lange interwinded Antwort). Nun zum Kritiker selbst: Ihr Beispiel zeigt das Verhalten der Lösung mithilfe der Transformation bei nicht kontaminierten Daten. IMHO sollte die Whisker-Regel - möglicherweise vorläufig - unter Berücksichtigung eines Kontaminationsmodells bewertet werden.

user603

@user Danke für die Klarstellung. Ich habe nichts gegen die Kritik, die interessant ist, und ich schätze die Verweise auf angepasste Boxplots. (+1)

whuber

Ich bin mit User603 einverstanden, dass es einen Unterschied gibt, ob Sie eine reine Distribution überprüfen (z. B. in Whubers Answer) oder Daten von einer Distribution plus einige Ausreißer (hier als Kontamination bezeichnet ) haben. Aus meiner Sicht wird in realen Umgebungen ein Boxplot verwendet, um nach Ausreißern zu suchen. Anschließend geht eine Analyse von Boxplots, bei der Ausreißer weggelassen werden, fehl. Daher scheint diese Antwort dem Zweck der Verwendung von Boxplots besser zu dienen.

Henrik

@Henrik Das Identifizieren von Ausreißern ist nur einer von vielen Zwecken von Boxplots. Tukeys Ansatz bestand zunächst darin, eine angemessene Wiederholung der Daten zu finden, die die Mitte ihrer Verteilung annähernd symmetrisch machten. Dies vermeidet die Notwendigkeit einer Anpassung für die Neigung. Dies leistet bereits eine Menge, um Vergleiche zwischen Boxplots zu ermöglichen. Dort werden sie wirklich nützlich. Das "Anpassen" der Schnurrhaare lässt dieses grundlegende Problem völlig außer Acht. Daher würde ich die Einstellung nicht verwenden: Sie ist ein Signal dafür, dass die Analyse nicht gut durchgeführt wird.

Whuber