Ich möchte wissen, ob es eine Boxplot-Variante gibt, die an verteilte Poisson-Daten (oder möglicherweise an andere Distributionen) angepasst ist.
Bei einer Gaußschen Verteilung mit Whiskern bei L = Q1 - 1,5 IQR und U = Q3 + 1,5 IQR hat das Boxplot die Eigenschaft, dass es ungefähr so viele niedrige Ausreißer (Punkte unter L) wie hohe Ausreißer (Punkte über U) gibt ).
Wenn die Daten jedoch Poisson-verteilt sind, gilt dies nicht mehr, da wir aufgrund der positiven Schiefe Pr (X <L) <Pr (X> U) erhalten . Gibt es eine alternative Möglichkeit, die Whisker so zu platzieren, dass sie zu einer Poisson-Verteilung passen?
Antworten:
Boxplots sollten nicht in allen Fällen eine geringe Wahrscheinlichkeit des Überschreitens der Enden der Whisker gewährleisten: Sie sind als einfache grafische Charakterisierungen des Hauptteils eines Datensatzes gedacht und werden in der Regel verwendet. Als solche sind sie auch dann in Ordnung, wenn die Daten stark verzerrte Verteilungen aufweisen (obwohl sie möglicherweise nicht so viele Informationen enthalten wie ungefähr ungezerrte Verteilungen).
Wenn Boxplots wie bei einer Poisson-Verteilung verzerrt werden, besteht der nächste Schritt darin, die zugrunde liegende Variable erneut auszudrücken (mit einer monotonen, zunehmenden Transformation) und die Boxplots neu zu zeichnen. Da die Varianz einer Poisson-Verteilung proportional zum Mittelwert ist, ist die Quadratwurzel eine gute Transformation.
Jedes Boxplot zeigt 50 iid-Zeichnungen aus einer Poisson-Verteilung mit gegebener Intensität (von 1 bis 10, mit zwei Versuchen für jede Intensität). Beachten Sie, dass die Schiefe tendenziell gering ist.
Dieselben Daten auf einer Quadratwurzelskala weisen tendenziell Boxplots auf, die etwas symmetrischer sind und (mit Ausnahme der niedrigsten Intensität) unabhängig von der Intensität ungefähr gleiche IQRs aufweisen.
Ändern Sie den Boxplot-Algorithmus also nicht, sondern drücken Sie die Daten erneut aus.
(Da die Normalverteilung symmetrisch ist, gilt dieses Histogramm für beide Zäune.) Der Logarithmus von 1% / 2 beträgt ungefähr -2,3. In den meisten Fällen ist die Wahrscheinlichkeit natürlich höher. In etwa 16% der Fälle sind es mehr als 10%!
quelle
Ich kenne eine Verallgemeinerung von Standard-Boxplots, bei denen die Länge der Whisker angepasst wird, um verzerrte Daten zu berücksichtigen. Die Details werden in einem sehr klaren und prägnanten Whitepaper (Vandervieren, E., Hubert, M. (2004), "Ein angepasster Boxplot für verzerrte Verteilungen", siehe hier ) besser erklärt .
Ich persönlich finde es eine bessere Alternative zur Datenumwandlung (obwohl es auch auf einer Ad-hoc-Regel basiert, siehe Whitepaper).
Übrigens habe ich hier etwas zu Whubers Beispiel hinzuzufügen. In dem Maße, in dem wir über das Verhalten der Whisker sprechen, sollten wir auch überlegen, was bei der Betrachtung kontaminierter Daten geschieht:
In diesem Kontaminationsmodell hat B1 im Wesentlichen eine logarithmische Normalverteilung, abgesehen von 20 Prozent der Daten, die zur Hälfte links und zur Hälfte rechts von Ausreißern liegen (der Aufschlüsselungspunkt von adjbox ist derselbe wie der von regulären Boxplots, dh es wird höchstens davon ausgegangen 25 Prozent der Daten können fehlerhaft sein.
Die Grafiken zeigen die klassischen Boxplots der transformierten Daten (unter Verwendung der Quadratwurzel-Transformation).
und das angepasste Boxplot der nicht transformierten Daten.
Im Vergleich zu angepassten Boxplots maskiert die erstere Option die tatsächlichen Ausreißer und kennzeichnet gute Daten als Ausreißer. Im Allgemeinen wird es zweckmäßig sein, Hinweise auf Asymmetrien in den Daten zu verbergen, indem Sie beleidigende Punkte als Ausreißer klassifizieren.
In diesem Beispiel werden bei Verwendung des Standard-Boxplots auf der Quadratwurzel der Daten 13 Ausreißer (alle rechts) ermittelt, während im angepassten Boxplot 10 rechte und 14 linke Ausreißer ermittelt werden.
EDIT: angepasste Boxplots auf den Punkt gebracht.
In 'klassischen' Boxplots befinden sich die Whisker bei:
Q 3Q1 -1,5 * IQR und + 1,5 * IQRQ3
Dabei ist IQR der Interquantilbereich, das 25. Perzentil und das 75. Perzentil der Daten. Als Faustregel gilt, dass alles außerhalb des Zauns als zweifelhafte Daten betrachtet werden muss (der Zaun ist das Intervall zwischen den beiden Whiskern).Q 3Q1 Q3
Diese Faustregel ist ad-hoc: Die Begründung lautet, dass weniger als 1% der guten Daten nach dieser Regel als schlecht eingestuft würden, wenn der nicht kontaminierte Teil der Daten ungefähr Gaußsch ist.
Eine Schwäche dieser Zaunregel ist, wie vom OP hervorgehoben, dass die Länge der beiden Whisker identisch ist, was bedeutet, dass die Zaunregel nur dann Sinn macht, wenn der nicht kontaminierte Teil der Daten eine symmetrische Verteilung aufweist.
Ein gängiger Ansatz ist es, die Zaunregel beizubehalten und die Daten anzupassen. Die Idee besteht darin, die Daten unter Verwendung einer eintönigen Transformation mit Korrektur des Versatzes (Quadratwurzel oder Logarithmus oder allgemeiner Box-Cox-Transformationen) zu transformieren. Dies ist ein etwas chaotischer Ansatz: Er basiert auf zirkulärer Logik (die Transformation sollte so gewählt werden, dass die Schiefe des nicht kontaminierten Teils der Daten korrigiert wird, der zu diesem Zeitpunkt nicht beobachtbar ist) und die Interpretation der Daten erschwert visuell. In jedem Fall bleibt dies ein merkwürdiger Vorgang, bei dem man die Daten ändert, um eine schließlich Ad-hoc-Regel zu erhalten.
Eine Alternative besteht darin, die Daten unangetastet zu lassen und die Whisker-Regel zu ändern. Das angepasste Boxplot ermöglicht, dass die Länge jedes Whiskers gemäß einem Index variiert, der die Schiefe des nicht kontaminierten Teils der Daten misst:
Wo ist ein Index für die Schiefe des unbelasteten Teils der Daten ( das heißt, wie die mittleren ein Maß für Position für den unberührten Teil der Daten oder die MAD ein Maß für die Ausbreitung des unbelasteten Teil der Daten) und sind Zahlen, die so gewählt werden, dass bei nicht kontaminierten Schrägverteilungen die Wahrscheinlichkeit, außerhalb des Zauns zu liegen, in einer großen Sammlung von Schrägverteilungen relativ gering ist (dies ist der Ad-hoc-Teil der Zaunregel).α βM α β
In Fällen, in denen der Großteil der Daten symmetrisch ist, ist und wir kehren zu den klassischen Whiskern zurück.M≈0
Die Autoren schlagen vor, das Med-Paar als Schätzer für (siehe Referenz im Whitepaper), da es sehr effizient ist (obwohl im Prinzip jeder robuste Skew-Index verwendet werden kann). Mit dieser Wahl von berechneten sie dann das optimale und empirisch (unter Verwendung einer großen Anzahl von versetzten Verteilungen) als:M α βM M α β
quelle