Ich habe kürzlich festgestellt, dass es Unterschiede in den von SPSS und Stata bereitgestellten Kurtosis-Werten gibt.
Siehe http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm
Mein Verständnis ist, dass die Interpretation desselben daher unterschiedlich wäre.
Irgendwelche Ratschläge, wie man damit umgeht?
spss
stata
interpretation
kurtosis
Cesare Camestre
quelle
quelle
Antworten:
Die drei Formeln
Drei Formeln für die Kurtosis werden im Allgemeinen von verschiedenen Programmen verwendet. Ich werde alle drei Formeln ( , und ) und Programme , die sie verwenden. G 2 b 2g2 G2 b2
Die erste Formel und die typische Definition, die in vielen Lehrbüchern verwendet wird, lautet (dies ist die zweite Formel in dem von Ihnen angegebenen Link) wobei bezeichnet die Beispielmomente : mr
Manchmal wird dieser Formel ein Korrekturterm von -3 hinzugefügt, sodass eine Normalverteilung eine Kurtosis von 0 aufweist. Die Kurtosisformel mit einem Term von -3 wird als überschüssige Kurtosis bezeichnet (die erste Formel in dem von Ihnen angegebenen Link).
Die zweite Formel lautet (wird von SAS, SPSS und MS Excel verwendet; dies ist die dritte Formel in dem von Ihnen angegebenen Link).
Dabei ist die in der ersten Formel definierte Kurtosis.g2
Die dritte Formel lautet (von MINITAB und BMDP verwendet):
wobei die unverzerrte Stichprobenvarianz ist :s2
Ing2−3 G2 b2
R
der Kurtosis kann mit derkurtosis
Funktion aus deme1071
Paket berechnet werden (Link hier ). Die Optiontype
bestimmt, welche der drei Formeln für die Berechnungen verwendet wird (1 = , 2 = , 3 = ).Diese beiden Artikel diskutieren und vergleichen alle drei Formeln: erstens , zweitens .
Zusammenfassung der Unterschiede zwischen den Formeln
Siehe auch die Wikipedia-Seite und die MathWorld-Seite über Kurtosis.
quelle
Der fragliche Link spricht auch über SAS. Tatsächlich beschränkt sich nichts in dieser Frage, außer möglicherweise dem eigenen Fokus des Posters, auf die genannten Programme.
Ich denke, wir müssen hier ganz unterschiedliche Arten von Problemen herausfiltern, von denen einige illusorisch und einige echt sind.
Einige Programme subtrahieren 3 und andere nicht, so dass das angegebene Kurtosis-Maß 3 für Gaußsche / normale Variablen ohne Subtraktion und 0 für Subtraktion beträgt. Ich habe Leute gesehen, die davon verwirrt waren, oft, wenn sich herausstellt, dass der Unterschied 2,999 und nicht genau 3 beträgt.
Einige Programme verwenden Korrekturfaktoren, um sicherzustellen, dass die Kurtosis ohne Verzerrung geschätzt wird. Diese Korrekturfaktoren nähern sich 1, wenn die Stichprobengröße größer wird. Da die Kurtosis in kleinen Proben in keiner Weise gut geschätzt wird, sollte dies kein großes Problem darstellen.n
Es gibt also ein kleines Problem mit Formeln, wobei Nr. 1 viel größer ist als Nr. 2, aber beide geringfügig, wenn man es versteht. Der Rat ist eindeutig, die Dokumentation für das von Ihnen verwendete Programm zu lesen und, falls es keine Dokumentation gibt, die diese Art von Details erklärt, das Programm sofort abzubrechen. Ein Testfall, der so einfach wie eine Variable (1, 2) ist, ergibt jedoch eine Kurtosis von 1 oder 4, abhängig von # 1 allein (ohne Korrekturfaktor).
Die Frage stellt sich dann nach der Interpretation, aber dies ist eine viel offenere und umstrittenere Angelegenheit.
Bevor wir zum Hauptdiskussionsbereich kommen, besteht eine häufig gemeldete, aber wenig bekannte Schwierigkeit darin, dass Kurtosis-Schätzungen als Funktion der Stichprobengröße begrenzt sind. Ich schrieb eine Rezension in Cox, NJ 2010. Die Grenzen von Probenversatz und Kurtosis. Stata Journal 10 (3): 482 & ndash; 495. http://www.stata-journal.com/article.html?article=st0204
Zusammenfassung: Probenschiefe und Kurtosis werden durch Funktionen der Probengröße begrenzt. Die Grenzen oder Annäherungen an sie wurden in den letzten Jahrzehnten wiederholt wiederentdeckt, scheinen jedoch nur wenig bekannt zu sein. Die Grenzwerte verleihen der Schätzung eine Verzerrung und implizieren in extremen Fällen, dass keine Stichprobe ein genaues Zeugnis für ihre Elternverteilung ablegen kann. Die wichtigsten Ergebnisse werden in einem Tutorial-Review erläutert und es wird gezeigt, wie Stata und Mata verwendet werden können, um ihre Konsequenzen zu bestätigen und zu untersuchen.
Nun zu dem, was gemeinhin als Kern der Sache angesehen wird:
Viele Menschen übersetzen Kurtosis als Peakedness, andere betonen jedoch, dass sie häufig als Maß für das Schwanzgewicht dient. Tatsächlich könnten die beiden Interpretationen für einige Verteilungen eine vernünftige Formulierung sein. Es ist fast unvermeidlich, dass es keine einfache verbale Interpretation von Kurtosis gibt: Unsere Sprache ist nicht reich genug, um Summen der vierten Potenzen von Abweichungen vom Mittelwert und Summen der zweiten Potenzen derselben zu vergleichen.
In einem kleinen und oft übersehenen Klassiker machte Irving Kaplansky (1945a) auf vier Beispiele für Verteilungen mit unterschiedlichen Werten für Kurtosis und Verhalten aufmerksam, die nicht mit einigen Diskussionen über Kurtosis übereinstimmen.
Die Verteilungen sind alle symmetrisch mit Mittelwert 0 und Varianz 1 und haben Dichtefunktionen für die Variablen und ,x c=π−−√
Die Kurtosis (ohne Subtraktion) beträgt (1) 2,75 (2) 3,125 (3) 4,5 (4) 8/3 2,667: Vergleiche den Gaußschen oder Normalwert von 3. Die Dichte im Mittelwert beträgt (1) 0,423 (2) ) 0,387 (3) 0,470 (4) 0,366: Vergleiche den Gaußschen Wert von 0,399.≈
Es ist lehrreich, diese Dichten zu zeichnen. Stata-Benutzer können mein
kaplansky
Programm von SSC herunterladen . Die Verwendung einer logarithmischen Skala für die Dichte kann hilfreich sein.Ohne die vollständigen Details preiszugeben, untergraben diese Beispiele jede einfache Geschichte, dass niedrige oder hohe Kurtosis eine klare Interpretation in Bezug auf Peakedness oder tatsächlich einen anderen einzelnen Kontrast hat.
Wenn der Name Irving Kaplansky eine Glocke läutet, liegt das wahrscheinlich daran, dass Sie seine Arbeit in der modernen Algebra kennen. Er (1917-2006) war ein kanadischer (später amerikanischer) Mathematiker und lehrte und forschte in Harvard, Chicago und Berkeley, während eines Kriegsjahres in der Applied Mathematics Group des National Defense Council der Columbia University. Kaplansky leistete wichtige Beiträge zur Gruppentheorie, zur Ringtheorie, zur Theorie der Operatoralgebren und zur Feldtheorie. Er war ein versierter Pianist und Texter und ein begeisterter und klarer Vertreter der Mathematik. Beachten Sie auch einige andere Beiträge zu Wahrscheinlichkeit und Statistik von Kaplansky (1943, 1945b) und Kaplansky und Riordan (1945).
Kaplansky, I. 1943. Eine Charakterisierung der Normalverteilung. Annals of Mathematical Statistics 14: 197-198.
Kaplansky, I. 1945a. Ein häufiger Fehler bei der Kurtosis. Journal, American Statistical Association 40: 259 nur.
Kaplansky, I. 1945b. Die asymptotische Verteilung von Läufen aufeinanderfolgender Elemente. Annals of Mathematical Statistics 16: 200-203.
Kaplansky, I. und Riordan, J. 1945. Multiple Matching und Läufe nach der symbolischen Methode. Annals of Mathematical Statistics 16: 272-277.
quelle