Zähmung des Versatzes… Warum gibt es so viele Versatzfunktionen?

9

Ich hoffe, mehr Einblick in die vier Arten von Versatz aus dieser Community zu bekommen.

Die Typen, auf die ich mich beziehe, werden auf der Hilfeseite http://www.inside-r.org/packages/cran/e1071/docs/skewness erwähnt .

Die alte Methode wurde auf der Hilfeseite nicht erwähnt, aber ich füge sie trotzdem hinzu.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

Hier ist das Papier, auf das sich der Autor von e1071 bezieht: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes und CA Gill (1998), Vergleich von Messungen der Probenschiefe und Kurtosis.

Aus meiner Lektüre dieses Papiers geht hervor, dass Typ 3 den geringsten Fehler aufweist.

Hier sind Beispiele für die Schiefe aus dem obigen Code:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

Mir ist auch aufgefallen, dass der Autor von e1071 die Skew-Funktion anders als in den Notizen auf der Hilfeseite geschrieben hat. Beachten Sie das sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

Irgendwelche Ideen, warum das Quadrat (n) in der ersten Gleichung steht? Welche Gleichung behandelt Überlauf / Unterlauf besser? Irgendwelche anderen Ideen, warum sie unterschiedlich sind (aber die gleichen Ergebnisse liefern)?

Chris
quelle
3
In Ihrer Frage werden "die vier Arten von Versatz" erwähnt ... aber dann wird ein Link angegeben und eine Reihe von Codes gestartet (welche Sprache Sie nicht einmal erwähnen). Die Leute müssen also keinen Link lesen, um herauszufinden, was Sie fragen, und zum Nutzen der Leute, die R nicht lesen, und derjenigen, die das Lesen von Code als nicht hilfreich für die Vermittlung von Verständnis empfinden, wäre es hilfreich, zu definieren, welche vier Maß für die Schiefe, die Sie vor (oder vorzugsweise anstelle von) einem Codestreifen meinen. [Wenn Sie "die vier" sagen, anstatt "diese vier" zu sagen, warum gibt es Ihrer Meinung nach genau vier statt fünf oder sieben oder eine andere Zahl?]
Glen_b
1
Ich habe versucht, eine Antwort auf die spezifischen Fragen zu geben, die ich in Ihrem Beitrag finden konnte, und dabei eine Reihe von Problemen angesprochen, aber abgesehen davon ist die "Hoffnung auf mehr Einsicht" zu vage, um darauf zu antworten. Können Sie klarer identifizieren, über welche Dinge Sie einen Einblick wünschen? Auf unserer Website gibt es viele Fragen zur Schiefe.
Glen_b -Reinstate Monica
Vielen Dank, Glen, für deine Beiträge. Ich habe R zur Veranschaulichung und zur Darstellung der Formeln eingefügt. Auch Latex kenne ich nicht. :(
Chris

Antworten:

10

Beginnen wir mit der, die Sie als "alte Methode" beschreiben. Dies ist die zweite Pearson-Schiefe oder Median-Schiefe . Tatsächlich ist die Moment-Schiefe und die im Großen und Ganzen der gleiche Jahrgang (die mittlere Schiefe ist tatsächlich etwas jünger, da die Moment-Schiefe Pearsons Bemühungen vorausgeht).

Eine kleine Diskussion über einen Teil der Geschichte finden Sie hier ; Dieser Beitrag kann auch ein wenig Licht auf einige Ihrer anderen Fragen werfen.

Wenn Sie unsere Website mit der zweiten Pearson-Schiefe durchsuchen, werden Sie auf einige Beiträge stoßen, die eine Diskussion über das Verhalten dieser Maßnahme enthalten.

Es ist nicht wirklich seltsamer als der Moment, in dem die Schiefe in meinem Kopf gemessen wird. Beide machen manchmal seltsame Dinge, die nicht den Erwartungen der Menschen an ein Maß für die Schiefe entsprechen.


Die übliche Form von wird hier in Wikipedia diskutiert ; Wie es heißt, ist es eine Methode des Momentschätzers und eine natürliche Sache, wenn man die Populationsberechnung in Bezug auf den standardisierten dritten Moment verwendet.b1

Wenn man für (dh ohne Bessel-Korrektur), erhält man den von Ihnen erwähnten Typ ; Beides würde ich als "Methode der Momente" bezeichnen. Mir ist nicht klar, dass es viel Sinn macht, den Nenner zu entkräften, da dies nicht unbedingt das Verhältnis aufhebt. Es kann sinnvoll sein, dies so zu tun, dass die Berechnung dem entspricht, was die Benutzer von Hand erwarten.snsn1g1

Es gibt jedoch eine zweite (äquivalente) Möglichkeit, die Populationsschiefe in Bezug auf Kumulanten zu definieren (siehe den obigen Wikipedia-Link). Wenn Sie für eine Stichprobenschiefe unverzerrte Schätzungen verwendet haben, erhalten Sie .G1

[Beachten Sie weiter, dass das Multiplizieren des Zählers in mit aufhebt, so dass dies ein weiterer Grund sein kann, warum Leute diese Form betrachten. Wenn man versucht, sowohl die Berechnung des dritten als auch des zweiten Moments zu lösen, erhält man einen etwas anderen Faktor wenn und nach vorne kommen.]b1n2(n1)(n2)n,(n1)(n2)

Alle drei sind einfach leicht unterschiedliche Variationen der Schiefe im dritten Moment. In sehr großen Proben gibt es wirklich keinen Unterschied, den Sie verwenden. In kleineren Stichproben weisen alle leicht unterschiedliche Vorurteile und Varianzen auf.


Die hier diskutierten Formen erschöpfen weder die Definitionen der Schiefe (ich glaube, ich habe ungefähr ein Dutzend gesehen - der Wikipedia-Artikel listet einige auf, aber selbst das deckt nicht den Umfang ab), noch die Definitionen, die sich auf die dritte beziehen -moment Schiefe, von der ich mehr als die drei gesehen habe, die Sie hier erhöhen.

Warum gibt es viele Maßstäbe für die Schiefe?

Also (all diese Schiefen im dritten Moment für einen Moment als eine behandeln), warum so viele verschiedene Schiefen? Teilweise liegt es daran, dass Schiefe als Begriff eigentlich ziemlich schwer zu fassen ist. Es ist eine rutschige Sache, die man nicht wirklich auf eine einzige Zahl festlegen kann. Infolgedessen sind alle Definitionen in gewisser Weise nicht ausreichend, stimmen jedoch in der Regel mit unserem breiten Verständnis dafür überein, was unserer Meinung nach ein Skewness-Maß bewirken sollte. Die Leute versuchen immer wieder, bessere Definitionen zu finden, aber die alten Maßnahmen wie QWERTZ-Tastaturen gehen nirgendwo hin.

Warum gibt es mehrere Maßstäbe für die Schiefe, die auf dem 3. Moment basieren?

Warum so viele Schiefen im dritten Moment auftreten, liegt einfach daran, dass es mehr als einen Weg gibt, ein Populationsmaß in ein Stichprobenmaß umzuwandeln. Wir haben zwei Routen gesehen, die auf Momenten basieren, und eine, die auf Kumulanten basiert. Wir könnten noch mehr konstruieren; Wir könnten zum Beispiel versuchen, ein (kleines) unvoreingenommenes Maß unter einer Verteilungsannahme oder ein Minimum-Mean-Square-Error-Maß oder eine andere solche Größe zu erhalten.

Möglicherweise finden Sie einige der Beiträge vor Ort, die sich auf die Erleuchtung der Schiefe beziehen. Es gibt einige, die Beispiele für Verteilungen zeigen, die nicht symmetrisch sind, aber keine Schiefe im dritten Moment aufweisen. Es gibt einige, die die Pearson-Median-Schiefe zeigen, und die Schiefe im dritten Moment kann entgegengesetzte Vorzeichen haben.

Hier sind Links zu einigen Beiträgen zum Thema Schiefe:

Bedeutet Mittelwert = Median, dass eine unimodale Verteilung symmetrisch ist?

Wie ist die Beziehung zwischen Mittelwert und Median bei linksgerichteten Daten?

Wie kann man die Schiefe anhand des Histogramms mit Ausreißern bestimmen?


In Bezug auf Ihre letzte Frage zur Berechnung von :b1

n(xx¯)3((xx¯)2)3/2 #from e1071 :: skewness source

(xx¯)3/n((xx¯)2/n)3/2 #von Momenten und e1071 Hilfeseite

Die beiden Formen sind algebraisch identisch; Der zweite ist klar in der Form "Dritter Moment im zweiten Moment an power , während der erste nur die Begriffe in aufhebt und die Reste nach vorne bringt. Ich glaube nicht, dass dies aus Gründen der Vermeidung von Überlauf / getan wurde. Unterlauf; Ich kann mir vorstellen, dass dies getan wurde, weil angenommen wurde, dass es etwas schneller ist. [Wenn Überlauf oder Unterlauf ein Problem darstellen, würde man die Berechnungen wahrscheinlich anders anordnen.]32n

Glen_b - Monica neu starten
quelle