Ein Maß für die Schiefe basiert auf dem mittleren Median - Pearsons zweitem Schiefheitskoeffizienten .
Ein weiteres Maß für die Schiefe basiert auf den relativen Quartildifferenzen (Q3-Q2) gegenüber (Q2-Q1), ausgedrückt als Verhältnis
u = 0,25
Das häufigste Maß ist natürlich die Schrägstellung im dritten Moment .
Es gibt keinen Grund, warum diese drei Maßnahmen unbedingt konsistent sein müssen. Jeder von ihnen kann sich von den beiden anderen unterscheiden.
Was wir als "Schiefe" betrachten, ist ein etwas rutschiges und schlecht definiertes Konzept. Weitere Informationen finden Sie hier .
Wenn wir Ihre Daten mit einem normalen qqplot betrachten:
[Die dort markierte Linie basiert nur auf den ersten 6 Punkten, da ich die Abweichung der letzten beiden von dem dortigen Muster diskutieren möchte.]
Wir sehen, dass die kleinsten 6 Punkte fast perfekt auf der Linie liegen.
Dann liegt der 7. Punkt unterhalb der Linie (näher an der Mitte als der entsprechende zweite Punkt vom linken Ende), während der 8. Punkt weit darüber liegt.
Der siebte Punkt deutet auf einen leichten linken Versatz hin, der letzte auf einen stärkeren rechten Versatz. Wenn Sie einen Punkt ignorieren, wird der Eindruck der Schiefe vollständig vom anderen bestimmt.
Wenn ich hatte zu sagen , war es das eine oder andere, ich das „richtige Skew“ nennen würde , aber ich würde auch darauf hinweisen, dass der Eindruck , ausschließlich auf die Wirkung , dass eine sehr große Punkt war. Ohne es gibt es wirklich nichts zu sagen, dass es richtig schief ist. (Auf der anderen Seite bleibt es ohne den 7. Punkt eindeutig nicht schief.)
Wir müssen sehr vorsichtig sein, wenn unser Eindruck ausschließlich durch einzelne Punkte bestimmt ist und durch Entfernen eines Punktes umgedreht werden kann. Das ist keine gute Basis, um fortzufahren!
Ich beginne mit der Prämisse, dass das, was einen Ausreißer zu einem „Ausreißer“ macht, das Modell ist (was in Bezug auf ein Modell ein Ausreißer ist, kann für ein anderes Modell durchaus typisch sein).
Ich denke, eine Beobachtung am 0,01 oberen Perzentil (1/10000) einer Normalen (3,72 sds über dem Mittelwert) ist ebenso ein Ausreißer zum Normalmodell wie eine Beobachtung am 0,01 oberen Perzentil einer Exponentialverteilung zum Exponentialmodell. (Wenn wir eine Verteilung durch ihre eigene Wahrscheinlichkeitsintegraltransformation transformieren, wird jede zur gleichen Uniform gehen.)
Simulieren Sie große Stichproben aus einer Exponentialverteilung, um das Problem beim Anwenden der Boxplot-Regel auch auf eine mäßig richtige Versatzverteilung zu erkennen.
Wenn wir beispielsweise Stichproben der Größe 100 aus einer normalen Stichprobe simulieren, berechnen wir im Durchschnitt weniger als einen Ausreißer pro Stichprobe. Wenn wir es mit einem Exponential machen, dann mitteln wir um 5. Aber es gibt keine reale Basis, auf der man sagen kann, dass ein höherer Anteil von Exponentialwerten "außerhalb" liegt, es sei denn, wir machen es im Vergleich mit einem normalen Modell. In bestimmten Situationen kann es bestimmte Gründe geben, eine Ausreißerregel in einer bestimmten Form zu haben, aber es gibt keine allgemeine Regel, die allgemeine Prinzipien wie die in diesem Unterabschnitt verwendete enthält - jedes Modell / jede Verteilung mit eigenen Lichtern zu behandeln (Wenn ein Wert in Bezug auf ein Modell nicht ungewöhnlich ist, warum sollte er in dieser Situation als Ausreißer bezeichnet werden?)
Um sich der Frage im Titel zuzuwenden :
Während es sich um ein ziemlich grobes Instrument handelt (weshalb ich mir die QQ-Darstellung angesehen habe), gibt es in einem Boxplot mehrere Anzeichen für eine Schräglage - wenn mindestens ein Punkt als Ausreißer markiert ist, gibt es möglicherweise (mindestens) drei:
In diesem Beispiel (n = 100) markieren die äußeren Punkte (grün) die Extreme und weisen mit dem Median auf eine linke Schiefe hin. Dann deuten die Zäune (blau) (in Kombination mit dem Median) auf die richtige Schiefe hin. Dann deuten die Scharniere (Quartile, braun) in Kombination mit dem Median auf eine linke Schräglage hin.
Wie wir sehen, müssen sie nicht konsistent sein. Worauf Sie sich konzentrieren würden, hängt von der Situation ab, in der Sie sich befinden (und möglicherweise von Ihren Vorlieben).
Eine Warnung, wie grob der Boxplot ist. Das Beispiel gegen Ende hier - die eine Beschreibung enthält , wie die Daten zu erzeugen , - gibt vier ganz unterschiedliche Verteilungen mit dem gleichen boxplot:
Wie Sie sehen können, gibt es eine recht verzerrte Verteilung, bei der alle oben genannten Indikatoren für die Verzerrung eine perfekte Symmetrie aufweisen.
-
Nehmen wir dies unter dem Gesichtspunkt "Welche Antwort erwartete Ihr Lehrer, da dies ein Boxplot ist, der einen Punkt als Ausreißer kennzeichnet?".
Wir bleiben mit der ersten Antwort zurück: "Erwarten sie, dass Sie die Schiefe ohne diesen Punkt oder mit diesem Punkt in der Stichprobe bewerten?". Einige würden es ausschließen und die Schiefe von dem abschätzen, was übrig bleibt, wie es JSK in einer anderen Antwort getan hat. Während ich Aspekte dieses Ansatzes bestritten habe, kann ich nicht sagen, dass es falsch ist - das hängt von der Situation ab. Einige würden es einschließen (nicht zuletzt, weil das Ausschließen von 12,5% Ihrer Stichprobe aufgrund einer von der Normalität abgeleiteten Regel ein großer Schritt ist *).
* Stellen Sie sich eine Populationsverteilung vor, die bis auf den äußersten rechten Schwanz symmetrisch ist. Wenn ich Proben der Größe 8 zeichne, stammen oft 7 der Beobachtungen aus dem normal aussehenden Teil und eine aus dem oberen Schwanz. Wenn wir in diesem Fall die als Boxplot-Ausreißer markierten Punkte ausschließen, schließen wir den Punkt aus, der uns sagt, dass es sich tatsächlich um einen Versatz handelt! Wenn wir dies tun, ist die abgeschnittene Verteilung, die in dieser Situation verbleibt, schief und unsere Schlussfolgerung wäre das Gegenteil der richtigen.
Nein, Sie haben nichts verpasst: Sie sehen tatsächlich jenseits der vereinfachten Zusammenfassungen, die präsentiert wurden. Diese Daten sind sowohl positiv als auch negativ verzerrt (im Sinne von "Verzerrung", was auf irgendeine Form von Asymmetrie in der Datenverteilung hindeutet ).
John Tukey beschrieb anhand seiner "N-Zahlen-Zusammenfassung" einen systematischen Weg, um die Asymmetrie in Datenmengen zu untersuchen. Ein Boxplot ist eine Grafik einer 5-stelligen Zusammenfassung und kann daher für diese Analyse verwendet werden.
In einem Boxplot wird eine Zusammenfassung mit fünf Zahlen angezeigt: der MedianM H+ H- X+ X- T+ich ich T+ich T-ich M= M+= M- ( T+ich+ T-ich) / 2 ich
Um diese Idee auf einen Boxplot anzuwenden, zeichnen Sie einfach die Mittelpunkte jedes Paares der entsprechenden Teile: den Median (der bereits vorhanden ist), den Mittelpunkt der Scharniere (Enden der Box, blau dargestellt) und den Mittelpunkt der Extreme (in rot dargestellt).
In diesem Beispiel zeigt der niedrigere Wert des Mittelscharniers im Vergleich zum Median an, dass die Mitte der Charge leicht negativ verzerrt ist (was die in der Frage angegebene Bewertung bestätigt, während gleichzeitig ihr Umfang auf die Mitte der Charge begrenzt wird ), während der (viel) höhere Wert des mittleren Extremwerts darauf hinweist, dass die Schwänze der Charge (oder zumindest ihre Extremwerte) positiv verzerrt sind (bei näherer Betrachtung ist dies jedoch auf einen einzelnen hohen Ausreißer zurückzuführen). Obwohl dies fast ein triviales Beispiel ist, zeigt der relative Reichtum dieser Interpretation im Vergleich zu einer einzelnen "Versatz" -Statistik bereits die beschreibende Kraft dieses Ansatzes.
Mit ein wenig Übung müssen Sie diese mittleren Statistiken nicht zeichnen: Sie können sich vorstellen, wo sie sich befinden, und die resultierenden Versatzinformationen direkt von jedem Boxplot ablesen.
Die mittleren und rechten Diagramme zeigen dasselbe für die Quadratwurzeln (der Daten, nicht der Mittelwertstatistik!) Und die Logarithmen (zur Basis 10). Die relative Stabilität der Werte der Wurzeln (beachten Sie den relativ kleinen vertikalen Bereich und das in der Mitte geneigte Niveau) zeigt an, dass dieser Satz von 219 Werten sowohl in seinen mittleren Teilen als auch in allen Teilen seiner Schwänze nahezu symmetrisch wird die Extreme, wenn die Höhen als Quadratwurzeln ausgedrückt werden. Dieses Ergebnis ist eine starke - fast zwingende - Grundlage für die weitere Analyse dieser Höhen im Hinblick auf ihre Quadratwurzeln.
Unter anderem zeigen diese Diagramme etwas Quantitatives über die Asymmetrie der Daten: Auf der ursprünglichen Skala zeigen sie sofort die unterschiedliche Schiefe der Daten (was erhebliche Zweifel an der Nützlichkeit der Verwendung einer einzelnen Statistik zur Charakterisierung ihrer Schiefe aufwirft), während auf Auf der Quadratwurzelskala sind die Daten nahezu symmetrisch um ihre Mitte - und können daher kurz und bündig mit einer fünfstelligen Zusammenfassung oder entsprechend einem Boxplot zusammengefasst werden. Die Schiefe variiert wieder erheblich auf einer logarithmischen Skala, was zeigt, dass der Logarithmus zu "stark" ist, um diese Daten erneut auszudrücken.
Die Verallgemeinerung eines Boxplots auf Zusammenfassungen mit sieben, neun und mehr Zahlen ist einfach zu zeichnen. Tukey nennt sie "schematische Darstellungen". Heutzutage dienen viele Handlungen einem ähnlichen Zweck, einschließlich Ersatzhandlungen wie QQ-Handlungen und relativer Neuheiten wie "Bohnenhandlungen" und "Geigenhandlungen". (Auch das niedrige Histogramm kann zu diesem Zweck in Betrieb genommen werden.) Anhand von Punkten aus solchen Diagrammen kann die Asymmetrie detailliert bewertet und eine ähnliche Bewertung der Möglichkeiten zur erneuten Darstellung der Daten durchgeführt werden.
quelle
Der Mittelwert, der kleiner oder größer als der Median ist, ist eine Abkürzung, mit der häufig die Richtung des Versatzes bestimmt wird, solange es keine Ausreißer gibt. In diesem Fall ist die Verteilung negativ verzerrt, der Mittelwert ist jedoch aufgrund des Ausreißers größer als der Median.
quelle