Wie kann ich feststellen, ob meine Datenverteilung symmetrisch ist?

23

Ich weiß, dass, wenn der Median und der Mittelwert ungefähr gleich sind, dies bedeutet, dass es eine symmetrische Verteilung gibt, aber in diesem speziellen Fall bin ich nicht sicher. Der Mittelwert und der Median liegen ziemlich nahe beieinander (nur 0,487 m / Gallonen Unterschied), was mich zu der Annahme veranlassen würde, dass es eine symmetrische Verteilung gibt, aber wenn man das Boxplot betrachtet, sieht es so aus, als ob es leicht positiv verzerrt ist (der Median ist näher an Q1 als Q3, wie bestätigt) durch die Werte).

(Ich verwende Minitab, wenn Sie spezielle Ratschläge für diese Software haben.)

user72943
quelle
Orthogonaler Kommentar zu einem Detail: Welche Einheiten sind m / Gallone? Das sieht aus wie Meter pro Gallone, und ich bin fasziniert.
Nick Cox
Es ist eine schwerwiegende Einschränkung, dass Box-Plots in der Regel überhaupt keine Mittelwerte anzeigen!
Nick Cox
Was ist die Standardabweichung Ihrer Daten? Wenn der Wert von 0,487 m / Gallone viel kleiner als Ihre Standardabweichung ist, haben Sie wahrscheinlich Gründe zu der Annahme, dass Ihre Verteilung symmetrisch sein kann. Wenn dieser Wert viel größer ist als Ihre Standardabweichung (oder MAD oder welches Abweichungsmaß Sie auch betrachten), ist es wahrscheinlich ein Zeitverlust, die Verteilungssymmetrie weiter zu untersuchen.
usεr11852 sagt Reinstate Monic
1
-70,-63,-56,-49,-42,-35,-28,-21,-14,-7,0,1,4,9,16,25,36,49,64,81,100 ist Bewusst nicht symmetrisch (gleichmäßig in der unteren Hälfte, aber nicht in der oberen Hälfte) und ein Box-Plot würden den Median (gleich dem Mittelwert) näher an das obere Quartil als an das untere Quartil, aber auch näher an das Minimum als an das Maximum bringen.
Henry
@NickCox es könnte auch sein mgal mit einem Tippfehler. Das wären fast 500 gal! Oder weniger als g. (Natürlich, wie oben erwähnt, ohne eine Dispersionsskala wie MAD, keine Möglichkeit zu wissen, was "signifikant" sein könnte.)μ10-4
GeoMatt22

Antworten:

29

Zweifellos wurde Ihnen etwas anderes gesagt, aber Mittelwert Median bedeutet keine Symmetrie.=

Es gibt ein Maß für die Schiefe basierend auf dem Mittelwert minus dem Median (der zweiten Pearson-Schiefe), aber es kann 0 sein, wenn die Verteilung nicht symmetrisch ist (wie bei allen gängigen Schiefheitsmaßen).

In ähnlicher Weise impliziert die Beziehung zwischen Mittelwert und Median nicht notwendigerweise eine ähnliche Beziehung zwischen der Mitte ( ) und dem Median. Sie können eine entgegengesetzte Schiefe vorschlagen, oder einer kann dem Median entsprechen, während der andere dies nicht tut.(Q.1+Q.3)/2

Eine Möglichkeit zur Untersuchung der Symmetrie besteht in einem Symmetriediagramm *.

Wenn sind die geordneten Beobachtungen vom kleinsten bis zum größten (Ordnungsstatistik), und M ist der Median, dann zeichnet ein Symmetriediagramm Y ( n ) - M gegen M - Y ( 1 ) , Y ( n - 1 ) - M gegen M - Y ( 2 )Y.(1),Y.(2),...,Y.(n)MY.(n)-MM-Y.(1)Y.(n-1)-MM-Y.(2) , ... und so weiter.

* Minitab kann das . In der Tat hebe ich diese Handlung als Möglichkeit hervor, weil ich sie in Minitab gesehen habe.

Hier sind vier Beispiele:

Symmetriediagramme
Symmetriediagramme des obigen Typs für Stichproben aus vier Verteilungen

(Die tatsächlichen Verteilungen waren (von links nach rechts, erste obere Reihe) - Laplace, Gamma (Form = 0,8), Beta (2,2) und Beta (5,2). Der Code ist Ross Ihaka's, von hier )

Bei stark schwanzförmigen symmetrischen Beispielen können die extremsten Punkte oft sehr weit von der Linie entfernt sein. Sie würden weniger auf den Abstand von der Linie von einem oder zwei Punkten achten, wenn Sie sich oben rechts in der Figur befinden.

Es gibt natürlich auch andere Darstellungen (ich erwähnte die Symmetriedarstellung nicht aus einem bestimmten Sinn für Befürwortung dieser bestimmten, sondern weil ich wusste, dass sie bereits in Minitab implementiert war). Also lasst uns ein paar andere erforschen.

Hier sind die entsprechenden Skewplots, die Nick Cox in Kommentaren vorgeschlagen hat:

Skewness-Diagramme
Skewness-Diagramme, wie von Nick Cox in Kommentaren vorgeschlagen

In diesen Darstellungen würde ein Aufwärtstrend einen typisch schwereren rechten Schwanz als einen linken anzeigen und ein Abwärtstrend würde einen typisch schwereren linken Schwanz als einen rechten anzeigen, während Symmetrie durch eine relativ flache (obwohl vielleicht ziemlich verrauschte) Darstellung angezeigt würde.

Nick schlägt vor, dass diese Handlung besser ist (speziell "direkter"). Ich bin geneigt zuzustimmen; Die Interpretation des Diagramms erscheint folglich etwas einfacher, obwohl die Informationen in den entsprechenden Diagrammen oft sehr ähnlich sind (nachdem Sie die Einheitssteigung im ersten Satz subtrahiert haben, erhalten Sie etwas, das dem zweiten Satz sehr ähnlich ist).

[Natürlich sagt uns keines dieser Dinge, dass die Verteilung, aus der die Daten stammen, tatsächlich symmetrisch ist. Wir erhalten einen Hinweis darauf, wie nahe die Stichprobe an der Symmetrie liegt, und können daher beurteilen, ob die Daten mit einer nahezu symmetrischen Grundgesamtheit in Einklang stehen.]

Glen_b - Setzen Sie Monica wieder ein
quelle
3
@ user72943 Wenn Sie vollkommen zufrieden sind, vergessen Sie nicht, die Antwort von Glen_b erneut auszuwählen. Möglicherweise möchten Sie eine Weile warten, um zu sehen, ob jemand eine bessere Antwort sendet, aber Glen_b erhält mehr Kredit, wenn Sie die Antwort akzeptieren.
Wayne
3
+-
6
(Y.(n+1-ich)+Y.(ich))/2ichn/2,n/4,n/8, und so weiter). In gewisser Hinsicht ist diese Darstellung besser als Symmetriedarstellungen, da sie einen Überschuss an Details herausfiltert und dem Betrachter hilft, sich darauf zu konzentrieren, wie sich die Symmetrie (oder deren Fehlen) ändert, wenn man sich in einen Schwanz hineinbewegt. Es hat den zusätzlichen Vorteil, dass es sofort und einfach berechenbar ist, sobald eine Zusammenfassung mit n Buchstaben vorliegt, die wiederum direkt von einem Stengel-Blatt-Diagramm abgelesen werden kann.
Whuber
1
@whuber und ich sprechen von derselben zugrunde liegenden Idee. Der Unterschied besteht darin, alle gepaarten Ordnungsstatistiken (in der Praxis nicht sehr störend) oder nur einige zu zeichnen.
Nick Cox
1
Verweise in stata-journal.com/sjpdf.html?articlenum=gr0003 und für Stata-Benutzer in der Dokumentation zu skewplot(SSC). Die Idee geht zumindest auf einen Vorschlag zurück, der JW Tukey in Wilk, MB und Gnanadesikan, R. 1968, zugeschrieben wurde. Methoden zur Wahrscheinlichkeitsaufzeichnung für die Analyse von Daten. Biometrika 55: 1-17.
Nick Cox
6

Am einfachsten ist es, die Schiefe der Probe zu berechnen . Dafür gibt es in Minitab eine Funktion. Die symmetrischen Verteilungen haben eine Neigung von Null. Keine Schrägstellung bedeutet nicht unbedingt symmetrisch, aber in den meisten praktischen Fällen würde dies der Fall sein.

Wie @NickCox feststellte, gibt es mehr als eine Definition von Versatz. Ich verwende das, das mit Excel kompatibel ist , aber Sie können jedes andere verwenden.

Aksakal
quelle
2
Ich denke, das muss präzisiert werden. Insbesondere gibt es keine "Schräglage". Es gibt viele Maßnahmen und auch die ungewöhnlichen sind oft so nützlich oder interessant wie die üblichen (z. B. L-Momente). Diejenigen , versuchten zu Hinsicht standardisierten dritten Moment , als die Maßnahme (und es ist mein Standard, auch) sollte beachten , dass für Karl Pearson, und für viele anderen Autoren weit in das 20. Jahrhundert, Schiefe wurde am häufigsten gemessen relativ zum Modus.
Nick Cox
Jeder Skewness-Koeffizient ist (wie Sie richtig bemerken) nicht nur leistungsfähig genug, um Asymmetrien zu erkennen, sondern auch (extrem) nicht robust, da er auf dem dritten Stichprobenmoment basiert. Da Symmetrie auf viele (und interessante) Arten verletzt werden kann, ist eine einzige numerische Charakterisierung der Symmetrie ein schlechter Ersatz für die umfassendere grafische Diagnose, die in der Literatur zur explorativen Datenanalyse beschrieben wird.
whuber
1

Zentrieren Sie Ihre Daten um Null, indem Sie den Stichprobenmittelwert abziehen. Teilen Sie nun Ihre Daten in zwei Teile auf, den negativen und den positiven. Nehmen Sie den absoluten Wert der negativen Datenpunkte. Führen Sie nun einen Kolmogorov-Smirnov-Test mit zwei Stichproben durch, indem Sie die beiden Partitionen miteinander vergleichen. Treffen Sie Ihre Schlussfolgerung basierend auf dem p-Wert.

Soakley
quelle
0

Ordnen Sie Ihre Beobachtungen in aufsteigenden Werten in einer Spalte an und ordnen Sie sie in absteigenden Werten in einer anderen Spalte an.
Berechnen Sie dann den Korrelationskoeffizienten (nennen Sie ihn Rm) zwischen diesen beiden Spalten.
Berechnen Sie den chiralen Index: CHI = (1 + Rm) / 2.
CHI nimmt Werte im Intervall [0..1] an.
CHI ist null, wenn und nur wenn Ihre Probe symmetrisch verteilt ist.
Keine Notwendigkeit für den dritten Moment.
Theorie:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(die meisten auf diesen beiden Seiten zitierten Artikel können dort im PDF-
Format heruntergeladen werden) Hoffe es hilft auch in letzter zeit.

Petitjean
quelle
Wäre die Korrelation, Rm, nicht unbedingt negativ? Ich sehe nicht, wie CHI 1 sein könnte, es sei denn, Rm wäre 1, aber da col1 aufsteigend und col2 absteigend sortiert ist, ist RM <= 0, was bedeutet, dass CHI Werte in [0, .5] annehmen würde. Vermisse ich etwas?
gung - Wiedereinsetzung von Monica
Ja Rm kann nicht positiv sein und CHI darf 1/2 für Verteilungen von Zufallsvariablen nicht überschreiten, die Werte auf der realen Linie annehmen. Tatsächlich stammt die obere Schranke 1 aus der allgemeinen Theorie, die den chiralen Index einführt. Es ist sinnvoll, wenn Zufallsvariablen in einem allgemeineren Raum verteilt werden. Diese Theorie liegt außerhalb des Rahmens der vorliegenden Diskussion, wird jedoch auf den beiden zuvor erwähnten Webseiten vorgestellt.
Petitjean
Registrieren Sie sich und / oder führen Sie Ihre Konten zusammen (Informationen dazu finden Sie im Abschnitt " Mein Konto " in unserer Hilfe ). Anschließend können Sie Ihre eigene Frage bearbeiten und kommentieren.
gung - Wiedereinsetzung von Monica