Wie kann man die Neigung anhand eines Boxplots beurteilen?

19

So bestimmen Sie die Schiefe anhand eines Boxplots, der aus diesen Daten erstellt wurde:

340, 300, 520, 340, 320, 290, 260, 330

Ein Buch sagt: "Wenn das untere Quartil weiter vom Median entfernt ist als das obere Quartil, ist die Verteilung negativ verzerrt." Mehrere andere Quellen sagten mehr oder weniger dasselbe.

Ich habe ein Boxplot mit R erstellt. Es ist wie folgt:

Box-Plot

Ich nehme an, es ist negativ verzerrt , weil das untere Quartil weiter vom Median entfernt ist als das obere Quartil. Das Problem ist jedoch, wenn ich eine andere Methode verwende, um die Schiefe zu bestimmen:

Mittelwert (337,5)> Median (325)

Dies zeigt an, dass die Daten positiv verzerrt sind . Habe ich etwas verpasst?

JerryW
quelle

Antworten:

19

Ein Maß für die Schiefe basiert auf dem mittleren Median - Pearsons zweitem Schiefheitskoeffizienten .

Ein weiteres Maß für die Schiefe basiert auf den relativen Quartildifferenzen (Q3-Q2) gegenüber (Q2-Q1), ausgedrückt als Verhältnis

u=0,25

Das häufigste Maß ist natürlich die Schrägstellung im dritten Moment .

Es gibt keinen Grund, warum diese drei Maßnahmen unbedingt konsistent sein müssen. Jeder von ihnen kann sich von den beiden anderen unterscheiden.

Was wir als "Schiefe" betrachten, ist ein etwas rutschiges und schlecht definiertes Konzept. Weitere Informationen finden Sie hier .

Wenn wir Ihre Daten mit einem normalen qqplot betrachten:

Bildbeschreibung hier eingeben

[Die dort markierte Linie basiert nur auf den ersten 6 Punkten, da ich die Abweichung der letzten beiden von dem dortigen Muster diskutieren möchte.]

Wir sehen, dass die kleinsten 6 Punkte fast perfekt auf der Linie liegen.

Dann liegt der 7. Punkt unterhalb der Linie (näher an der Mitte als der entsprechende zweite Punkt vom linken Ende), während der 8. Punkt weit darüber liegt.

Der siebte Punkt deutet auf einen leichten linken Versatz hin, der letzte auf einen stärkeren rechten Versatz. Wenn Sie einen Punkt ignorieren, wird der Eindruck der Schiefe vollständig vom anderen bestimmt.

Wenn ich hatte zu sagen , war es das eine oder andere, ich das „richtige Skew“ nennen würde , aber ich würde auch darauf hinweisen, dass der Eindruck , ausschließlich auf die Wirkung , dass eine sehr große Punkt war. Ohne es gibt es wirklich nichts zu sagen, dass es richtig schief ist. (Auf der anderen Seite bleibt es ohne den 7. Punkt eindeutig nicht schief.)

Wir müssen sehr vorsichtig sein, wenn unser Eindruck ausschließlich durch einzelne Punkte bestimmt ist und durch Entfernen eines Punktes umgedreht werden kann. Das ist keine gute Basis, um fortzufahren!


Ich beginne mit der Prämisse, dass das, was einen Ausreißer zu einem „Ausreißer“ macht, das Modell ist (was in Bezug auf ein Modell ein Ausreißer ist, kann für ein anderes Modell durchaus typisch sein).

Ich denke, eine Beobachtung am 0,01 oberen Perzentil (1/10000) einer Normalen (3,72 sds über dem Mittelwert) ist ebenso ein Ausreißer zum Normalmodell wie eine Beobachtung am 0,01 oberen Perzentil einer Exponentialverteilung zum Exponentialmodell. (Wenn wir eine Verteilung durch ihre eigene Wahrscheinlichkeitsintegraltransformation transformieren, wird jede zur gleichen Uniform gehen.)

Simulieren Sie große Stichproben aus einer Exponentialverteilung, um das Problem beim Anwenden der Boxplot-Regel auch auf eine mäßig richtige Versatzverteilung zu erkennen.

Wenn wir beispielsweise Stichproben der Größe 100 aus einer normalen Stichprobe simulieren, berechnen wir im Durchschnitt weniger als einen Ausreißer pro Stichprobe. Wenn wir es mit einem Exponential machen, dann mitteln wir um 5. Aber es gibt keine reale Basis, auf der man sagen kann, dass ein höherer Anteil von Exponentialwerten "außerhalb" liegt, es sei denn, wir machen es im Vergleich mit einem normalen Modell. In bestimmten Situationen kann es bestimmte Gründe geben, eine Ausreißerregel in einer bestimmten Form zu haben, aber es gibt keine allgemeine Regel, die allgemeine Prinzipien wie die in diesem Unterabschnitt verwendete enthält - jedes Modell / jede Verteilung mit eigenen Lichtern zu behandeln (Wenn ein Wert in Bezug auf ein Modell nicht ungewöhnlich ist, warum sollte er in dieser Situation als Ausreißer bezeichnet werden?)


Um sich der Frage im Titel zuzuwenden :

Während es sich um ein ziemlich grobes Instrument handelt (weshalb ich mir die QQ-Darstellung angesehen habe), gibt es in einem Boxplot mehrere Anzeichen für eine Schräglage - wenn mindestens ein Punkt als Ausreißer markiert ist, gibt es möglicherweise (mindestens) drei:

Bildbeschreibung hier eingeben

In diesem Beispiel (n = 100) markieren die äußeren Punkte (grün) die Extreme und weisen mit dem Median auf eine linke Schiefe hin. Dann deuten die Zäune (blau) (in Kombination mit dem Median) auf die richtige Schiefe hin. Dann deuten die Scharniere (Quartile, braun) in Kombination mit dem Median auf eine linke Schräglage hin.

Wie wir sehen, müssen sie nicht konsistent sein. Worauf Sie sich konzentrieren würden, hängt von der Situation ab, in der Sie sich befinden (und möglicherweise von Ihren Vorlieben).

Eine Warnung, wie grob der Boxplot ist. Das Beispiel gegen Ende hier - die eine Beschreibung enthält , wie die Daten zu erzeugen , - gibt vier ganz unterschiedliche Verteilungen mit dem gleichen boxplot:

Bildbeschreibung hier eingeben

Wie Sie sehen können, gibt es eine recht verzerrte Verteilung, bei der alle oben genannten Indikatoren für die Verzerrung eine perfekte Symmetrie aufweisen.

-

Nehmen wir dies unter dem Gesichtspunkt "Welche Antwort erwartete Ihr Lehrer, da dies ein Boxplot ist, der einen Punkt als Ausreißer kennzeichnet?".

Wir bleiben mit der ersten Antwort zurück: "Erwarten sie, dass Sie die Schiefe ohne diesen Punkt oder mit diesem Punkt in der Stichprobe bewerten?". Einige würden es ausschließen und die Schiefe von dem abschätzen, was übrig bleibt, wie es JSK in einer anderen Antwort getan hat. Während ich Aspekte dieses Ansatzes bestritten habe, kann ich nicht sagen, dass es falsch ist - das hängt von der Situation ab. Einige würden es einschließen (nicht zuletzt, weil das Ausschließen von 12,5% Ihrer Stichprobe aufgrund einer von der Normalität abgeleiteten Regel ein großer Schritt ist *).

* Stellen Sie sich eine Populationsverteilung vor, die bis auf den äußersten rechten Schwanz symmetrisch ist. Wenn ich Proben der Größe 8 zeichne, stammen oft 7 der Beobachtungen aus dem normal aussehenden Teil und eine aus dem oberen Schwanz. Wenn wir in diesem Fall die als Boxplot-Ausreißer markierten Punkte ausschließen, schließen wir den Punkt aus, der uns sagt, dass es sich tatsächlich um einen Versatz handelt! Wenn wir dies tun, ist die abgeschnittene Verteilung, die in dieser Situation verbleibt, schief und unsere Schlussfolgerung wäre das Gegenteil der richtigen.

Glen_b - Setzen Sie Monica wieder ein
quelle
1
@jsk Das hängt davon ab, wie Sie die Schiefe messen möchten. Da der Grad der Schräglage zum Teil durch äußere Punkte bestimmt wird (eine Tendenz, mehr in eine Richtung als in eine andere zu gehen), wird beim Entfernen dieser Punkte der Punkt der Schräglagenmessung möglicherweise übersehen. Eine ausführlichere Diskussion und Analyse findet sich in meinem aktualisierten Beitrag. Wenn Sie nicht überzeugt sind, können Sie gerne widersprechen, ein solcher Austausch ist oftmals wertvoll.
Glen_b
1
@ Glen_b Obwohl ich die Haltung, die Sie einnehmen, mit Sicherheit respektiere und verstehe, glaube ich, dass es ein vernünftiges Argument für die Beurteilung der Abweichung nach dem Entfernen des Ausreißers gibt, im Gegensatz zu zuvor. Nach dem Entfernen des Ausreißers wird die Verteilung nach dem Entfernen des siebten Punktes (260) sogar noch negativ verzerrt. Haben Sie den qqplot überprüft und / oder den Mittelwert und den Median verglichen?
jsk
1
Vielleicht ist der Fall nach dem Entfernen des siebten recht schwach, aber ich sehe keinen Grund, den Versatz nach dem Entfernen zu beurteilen. Es ist kein Ausreißer, auch wenn klar ist, dass die Maße der Schräglage, unabhängig davon, wie Sie sie in diesem Fall betrachten, von einzelnen Punkten bestimmt werden.
jsk
1
@Glen_b Q3 + 1.5IQR ist die typische Faustregel, die auf dieser Ebene zur Identifizierung von Ausreißern im oberen Endstück gelehrt wird. Ob sie entfernt werden sollen oder nicht, ist eine andere Frage. Argumentieren Sie, dass die Verteilung falsch ist, weil der Mittelwert größer ist? Warum sollte man die Tatsache ignorieren, dass Q1 weiter von Q2 entfernt ist als Q3?
jsk
1
Ich möchte darlegen, was sich hier in der Nähe der Oberfläche befindet, aber nicht ganz: Boxplots kondensieren häufig zu stark, sodass Sie möglicherweise auch alle Daten überprüfen müssen.
Nick Cox
11

Nein, Sie haben nichts verpasst: Sie sehen tatsächlich jenseits der vereinfachten Zusammenfassungen, die präsentiert wurden. Diese Daten sind sowohl positiv als auch negativ verzerrt (im Sinne von "Verzerrung", was auf irgendeine Form von Asymmetrie in der Datenverteilung hindeutet ).

John Tukey beschrieb anhand seiner "N-Zahlen-Zusammenfassung" einen systematischen Weg, um die Asymmetrie in Datenmengen zu untersuchen. Ein Boxplot ist eine Grafik einer 5-stelligen Zusammenfassung und kann daher für diese Analyse verwendet werden.


In einem Boxplot wird eine Zusammenfassung mit fünf Zahlen angezeigt: der Median MH+H-X+X-Tich+ichTich+Tich-M=M+=M-(Tich++Tich-)/2ich

Um diese Idee auf einen Boxplot anzuwenden, zeichnen Sie einfach die Mittelpunkte jedes Paares der entsprechenden Teile: den Median (der bereits vorhanden ist), den Mittelpunkt der Scharniere (Enden der Box, blau dargestellt) und den Mittelpunkt der Extreme (in rot dargestellt).

Box-Plot

In diesem Beispiel zeigt der niedrigere Wert des Mittelscharniers im Vergleich zum Median an, dass die Mitte der Charge leicht negativ verzerrt ist (was die in der Frage angegebene Bewertung bestätigt, während gleichzeitig ihr Umfang auf die Mitte der Charge begrenzt wird ), während der (viel) höhere Wert des mittleren Extremwerts darauf hinweist, dass die Schwänze der Charge (oder zumindest ihre Extremwerte) positiv verzerrt sind (bei näherer Betrachtung ist dies jedoch auf einen einzelnen hohen Ausreißer zurückzuführen). Obwohl dies fast ein triviales Beispiel ist, zeigt der relative Reichtum dieser Interpretation im Vergleich zu einer einzelnen "Versatz" -Statistik bereits die beschreibende Kraft dieses Ansatzes.

Mit ein wenig Übung müssen Sie diese mittleren Statistiken nicht zeichnen: Sie können sich vorstellen, wo sie sich befinden, und die resultierenden Versatzinformationen direkt von jedem Boxplot ablesen.


MHEDXich=1,2,3,4,5. Das Diagramm auf der linken Seite in der nächsten Abbildung ist das Diagnose-Diagramm für die Mittelpunkte dieser gepaarten Statistiken. Aus der Beschleunigung geht hervor, dass die Daten immer positiver verzerrt werden, wenn wir nach ihren Schwänzen greifen.

Figur 2

Die mittleren und rechten Diagramme zeigen dasselbe für die Quadratwurzeln (der Daten, nicht der Mittelwertstatistik!) Und die Logarithmen (zur Basis 10). Die relative Stabilität der Werte der Wurzeln (beachten Sie den relativ kleinen vertikalen Bereich und das in der Mitte geneigte Niveau) zeigt an, dass dieser Satz von 219 Werten sowohl in seinen mittleren Teilen als auch in allen Teilen seiner Schwänze nahezu symmetrisch wird die Extreme, wenn die Höhen als Quadratwurzeln ausgedrückt werden. Dieses Ergebnis ist eine starke - fast zwingende - Grundlage für die weitere Analyse dieser Höhen im Hinblick auf ihre Quadratwurzeln.

Unter anderem zeigen diese Diagramme etwas Quantitatives über die Asymmetrie der Daten: Auf der ursprünglichen Skala zeigen sie sofort die unterschiedliche Schiefe der Daten (was erhebliche Zweifel an der Nützlichkeit der Verwendung einer einzelnen Statistik zur Charakterisierung ihrer Schiefe aufwirft), während auf Auf der Quadratwurzelskala sind die Daten nahezu symmetrisch um ihre Mitte - und können daher kurz und bündig mit einer fünfstelligen Zusammenfassung oder entsprechend einem Boxplot zusammengefasst werden. Die Schiefe variiert wieder erheblich auf einer logarithmischen Skala, was zeigt, dass der Logarithmus zu "stark" ist, um diese Daten erneut auszudrücken.

Die Verallgemeinerung eines Boxplots auf Zusammenfassungen mit sieben, neun und mehr Zahlen ist einfach zu zeichnen. Tukey nennt sie "schematische Darstellungen". Heutzutage dienen viele Handlungen einem ähnlichen Zweck, einschließlich Ersatzhandlungen wie QQ-Handlungen und relativer Neuheiten wie "Bohnenhandlungen" und "Geigenhandlungen". (Auch das niedrige Histogramm kann zu diesem Zweck in Betrieb genommen werden.) Anhand von Punkten aus solchen Diagrammen kann die Asymmetrie detailliert bewertet und eine ähnliche Bewertung der Möglichkeiten zur erneuten Darstellung der Daten durchgeführt werden.

whuber
quelle
7

Der Mittelwert, der kleiner oder größer als der Median ist, ist eine Abkürzung, mit der häufig die Richtung des Versatzes bestimmt wird, solange es keine Ausreißer gibt. In diesem Fall ist die Verteilung negativ verzerrt, der Mittelwert ist jedoch aufgrund des Ausreißers größer als der Median.

jsk
quelle
Das erklärt. Die Bücher, die ich las, erwähnten das überhaupt nicht!
JerryW
Zumindest hoffentlich wurde in den Büchern erwähnt, dass der Mittelwert gegenüber Ausreißern viel weniger resistent ist als der Median!
jsk
Ob dies als negativ verzerrt gilt, hängt davon ab, wie Sie die Verzerrung messen.
Glen_b
Meinetwegen. Es ist ein kleiner Datensatz, der es besonders schwierig macht, die Schiefe zu beurteilen. Ich würde vermuten, dass dieses Beispiel leider nur aus dem Grund eingeworfen wurde, dass es widersprüchliche Faustregeln für die Bestimmung des
Versatzes gibt
1
Ich bin damit einverstanden, dass kleine Datasets wie diese eine Herausforderung darstellen können, aber es ist durchaus möglich, kontinuierliche Verteilungen zu erstellen, die ebenso herausfordernd sind.
Glen_b