Zentrale Tendenz, Ausbreitung und Schiefe lassen sich zumindest intuitiv relativ gut definieren; Die mathematischen Standardmaße dieser Dinge entsprechen auch relativ gut unseren intuitiven Vorstellungen. Aber Kurtosis scheint anders zu sein. Es ist sehr verwirrend und passt nicht gut zu jeder Intuition über die Verteilungsform.
Eine typische Erklärung für Kurtosis in einer angewandten Umgebung ist dieser Auszug aus der angewandten Statistik für Unternehmen und Verwaltung unter Verwendung von Microsoft Excel :
Kurtosis bezieht sich darauf, wie hoch eine Verteilung ist oder umgekehrt wie flach sie ist. Wenn die Schwänze mehr Datenwerte enthalten, als Sie von einer Normalverteilung erwarten, ist die Kurtosis positiv. Umgekehrt ist die Kurtosis negativ, wenn weniger Datenwerte in den Schwänzen vorhanden sind, als Sie bei einer Normalverteilung erwarten würden. Excel kann diese Statistik nur berechnen, wenn Sie über mindestens vier Datenwerte verfügen.
Abgesehen von der Verwechslung von "Kurtosis" und "exzessiver Kurtosis" (wie in diesem Buch üblich, um sich auf das zu beziehen, was andere Autoren letztere nennen), die Interpretation in Begriffen von "Peakedness" oder "Flatness" wird dann durch den Wechsel der Aufmerksamkeit verwirrt, wie viele Datenelemente in den Schwänzen sind. Es ist notwendig, sowohl "Peak" als auch "Tails" zu berücksichtigen - Kaplanskybeklagte sich 1945, dass viele Lehrbücher der damaligen Zeit fälschlicherweise behaupteten, Kurtosis habe damit zu tun, wie hoch der Peak der Verteilung im Vergleich zu dem einer Normalverteilung sei, ohne die Schwänze zu berücksichtigen. Die Form sowohl am Gipfel als auch in den Schwänzen zu berücksichtigen, erschwert jedoch das Erfassen der Intuition. Ein Punkt, den der oben zitierte Extrakt überspringt, indem er von der Spitze zur Schwere der Schwänze übergeht, als ob diese Konzepte gleich wären.
Darüber hinaus funktioniert diese klassische "Peak and Tails" -Erklärung der Kurtosis nur für symmetrische und unimodale Verteilungen (in der Tat sind die in diesem Text abgebildeten Beispiele alle symmetrisch). Die "richtige" allgemeine Interpretation von Kurtosis, sei es in Form von "Spitzen", "Schwänzen" oder "Schultern", ist jedoch seit Jahrzehnten umstritten .
Gibt es eine intuitive Methode, um Kurtosis in einer angewandten Umgebung zu lehren, die bei einer strengeren Herangehensweise nicht auf Widersprüche oder Gegenbeispiele stößt? Ist Kurtosis überhaupt ein nützliches Konzept im Kontext dieser Art von Kursen zur angewandten Datenanalyse, im Gegensatz zu Kursen in mathematischer Statistik? Wenn "Peakedness" einer Distribution ein intuitiv nützliches Konzept ist, sollten wir es stattdessen durch L-Momente lehren ?
Herkenhoff, L. und Fogli, J. (2013). Angewandte Statistik für Business und Management mit Microsoft Excel . New York, NY: Springer.
Kaplansky I. (1945). "Ein häufiger Fehler in Bezug auf Kurtosis". Journal of the American Statistical Association , 40 (230): 259.
Darlington, Richard B. (1970). "Ist Kurtosis wirklich 'Peakedness'?" The American Statistician 24 (2): 19–22
Moors, JJA. (1986) "Die Bedeutung von Kurtosis: Darlington überarbeitet". The American Statistician 40 (4): 283–284
Balanda, Kevin P. und MacGillivray, HL (1988). " Kurtosis: Ein kritischer Rückblick". The American Statistician 42 (2): 111–119
DeCarlo, LT (1997). " Über die Bedeutung und Verwendung von Kurtosis ". Psychological Methods , 2 (3), 292. Chicago
Hosking, JRM (1992). "Momente oder L Momente? Ein Beispiel für den Vergleich zweier Maße der Verteilungsform". The American Statistician 46 (3): 186–189
quelle
Antworten:
Kurtosis ist wirklich ziemlich einfach ... und nützlich. Es ist einfach ein Maß für Ausreißer oder Schwänze. Es hat überhaupt nichts mit dem Peak zu tun - diese Definition muss aufgegeben werden.
Hier ist ein Datensatz:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 3, 2, 5, 2, 3, 999
Beachten Sie, dass '999' ein Ausreißer ist.
0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98
Aus dieser Berechnung sollte ersichtlich sein, dass die Daten in der Nähe des "Peaks" (der Nicht-Ausreißerdaten) fast nichts zur Kurtosestatistik beitragen.
Kurtosis ist nützlich als Maß für Ausreißer. Ausreißer sind für Grundschüler wichtig und daher sollte Kurtosis unterrichtet werden. Aber Kurtosis hat praktisch nichts mit dem Peak zu tun, sei es spitz, flach, bimodal oder unendlich. Sie können alle oben mit kleiner Kurtosis und alle oben mit großer Kurtosis haben. Es sollte also NIEMALS so dargestellt werden, dass es etwas mit dem Peak zu tun hat, da dies zu falschen Informationen führt. Es macht das Material unnötig verwirrend und anscheinend weniger nützlich.
Zusammenfassung:
In diesem Artikel wird klar erläutert, warum die Definition von "Peakedness" jetzt offiziell nicht mehr gültig ist.
Westfall, PH (2014). " Kurtosis as Peakedness, 1905 - 2014. RIP " The American Statistician , 68 (3), 191-195.
quelle
$
Beispiel ist$z^4$
es möglich, zu verwendenDie Frage ist zwar etwas vage, aber interessant. Auf welchen Niveaus wird Kurtosis unterrichtet? Ich erinnere mich, dass es in einem (Master-) Kurs in linearen Modellen erwähnt wurde (vor langer Zeit, basierend auf der ersten Ausgabe von Sebers Buch). Es war kein wichtiges Thema, geht aber auf Themen wie die Untersuchung der (mangelnden) Robustheit des Likelihood-Ratio-Tests (F-Test) der Varianzgleichheit ein, bei dem (aus dem Gedächtnis) das korrekte Niveau asymptotisch von derselben Kurtosis abhängt wie das Normalverteilung, die zu viel ist, um anzunehmen! Wir sahen ein Papier (aber ich es nie mit Details lesen) http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents von Oja, das finden versucht , herauszufinden , was Schiefe, Kurtosis und so wirklich Maßnahmen.
Warum finde ich das interessant? Weil ich in Lateinamerika unterrichtet habe, wo es den Anschein hat, dass Skewness & Kurtosis von vielen als wichtig erachteten Themen unterrichtet werden, und versuche, Postgraduierten (viele aus der Wirtschaft) zu sagen, dass Kurtosis ein schlechtes Maß für die Form einer Verteilung ist (hauptsächlich) weil die Abtastvariabilität der vierten Potenzen einfach zu groß ist), war schwierig. Ich habe versucht, sie dazu zu bringen, stattdessen QQplots zu verwenden. Also, für einige der Kommentatoren, ja, das wird irgendwo gelehrt , wahrscheinlich zu viel!
Das ist übrigens nicht nur meine Meinung. Der folgende Blog-Beitrag https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics enthält diese Zitierung (Dr. Wheeler zugeschrieben):
Wir sollten bessere Techniken lehren, um Verteilungsformen zu studieren! wie QQ-Diagramme (oder relative Verteilungsdiagramme). Und wenn jemand noch numerische Maße benötigt, sind Maße, die auf L-Momenten basieren, besser. Ich zitiere eine Passage aus dem Aufsatz JR Statist Soc B (1990) 52, Nr. 1, S. 105–124 von JRM Hosking: "L-Momente: Analyse und Abschätzung der Verteilung durch lineare Kombination von Ordnungsstatistiken", Seite 109:
(Im Moment beziehe ich mich auf das Papier für die Definitionen dieser Maße, sie basieren alle auf L-Momenten.) Das Interessante ist, dass das traditionelle Maß für Kurtosis, das auf vierten Momenten basiert, kein Maß für Kurtosis ist im Sinne von Oja! (Ich werde die Referenzen für diesen Anspruch bearbeiten, wenn ich sie finde.)
quelle
Meiner Meinung nach ist der Schräglaufkoeffizient nützlich, um die Begriffe zu motivieren: positiv und negativ. Aber hier hört es auf, wenn es Ihr Ziel ist, die Normalität zu bewerten. Klassische Messungen von Schiefe und Kurtosis erfassen häufig nicht alle Arten von Abweichungen von der Normalität. Normalerweise empfehle ich meinen Schülern, grafische Techniken zu verwenden, um festzustellen, ob es sinnvoll ist, die Normalität zu bewerten, z. B. einen QQ-Plot oder einen normalen Wahrscheinlichkeitsplot. Bei einer ausreichend großen Stichprobe kann auch ein Histogramm verwendet werden. Boxplots sind auch nützlich, um Ausreißer oder sogar schwere Schwänze zu identifizieren.
Dies steht im Einklang mit den Empfehlungen einer Task Force des APA von 1999:
" Annahmen. Sie sollten sich bemühen, sicherzustellen, dass die zugrunde liegenden Annahmen, die für die Analyse erforderlich sind, angesichts der Daten angemessen sind. Reste sorgfältig untersuchen. Verwenden Sie keine Verteilungstests und statistischen Formindizes (z. B. Schiefe, Kurtosis) als Ersatz für die grafische Untersuchung Ihrer Residuen. Die Verwendung eines statistischen Tests zur Diagnose von Problemen bei der Modellanpassung weist mehrere Mängel auf. Erstens sind diagnostische Signifikanztests, die auf zusammenfassenden Statistiken basieren (wie Tests auf Varianzhomogenität), häufig unpraktisch sensitiv. Unsere statistischen Modelltests sind oft robuster als unsere statistischen Annahmetests. Zweitens können Statistiken wie Skewness und Kurtosis häufig keine Verteilungsunregelmäßigkeiten in den Residuen erkennen. Drittens hängen statistische Tests von der Stichprobengröße ab, und mit zunehmender Stichprobengröße Die Tests lehnen oft harmlose Annahmen ab. Im Allgemeinen gibt es keinen Ersatz für die grafische Analyse von Annahmen."
Referenz: Wilkinson, L. & Task Force on Statistical Inference. (1999). Statistische Methoden in psychologischen Fachzeitschriften: Richtlinien und Erläuterungen. American Psychologist, 54, 594 & ndash; 604.
quelle
Je nachdem, wie der Kurs angewendet wird, kann sich die Frage nach der Genauigkeit der Schätzungen stellen. Die Genauigkeit der Varianzschätzung hängt stark von der Kurtosis ab. Der Grund dafür ist, dass bei hoher Kurtosis die Verteilung seltene, extrem potenziell beobachtbare Daten zulässt. Somit erzeugt der Datenerzeugungsprozess in einigen Proben sehr extreme Werte und in anderen nicht so extreme Werte. Im ersten Fall erhalten Sie eine sehr große Varianzschätzung und im zweiten Fall eine kleine Varianzschätzung.
Wenn die überholte und inkorrekte Interpretation von "Peakedness" beseitigt und stattdessen ausschließlich Ausreißer (dh seltene, extreme Observablen) in den Mittelpunkt gerückt würden, wäre es einfacher, Kurtosis in Einführungskursen zu unterrichten. Aber die Leute verknoten sich, um "Peakedness" zu rechtfertigen, weil dies (fälschlicherweise) in ihren Lehrbüchern angegeben ist und sie die wirklichen Anwendungen der Kurtosis vermissen. Diese Anwendungen beziehen sich hauptsächlich auf Ausreißer, und natürlich sind Ausreißer in Kursen zur angewandten Statistik wichtig.
quelle
Sie können den Erwartungsoperator durch summenbasierte Schätzer ersetzen1n∑ni = 1 μ , σ2, μ4 μ σ2 ≠
quelle