Kann jemand eine Vorstellung davon geben, warum die höheren Momente einer Wahrscheinlichkeitsverteilung p(x)
wie der dritte und vierte Moment Schiefe bzw. Kurtosis entsprechen?
Warum führt die Abweichung vom Mittelwert zur 3. oder 4. Potenz zu einem Maß für Schiefe und Kurtosis? Gibt es eine Möglichkeit, dies mit der dritten oder vierten Ableitung der Funktion in Beziehung zu setzen?
Betrachten Sie diese Definition von Kurtosis:
Auch hier ist nicht klar, warum das Erhöhen von "Peakedness" ergibt oder warum einen Versatz ergeben sollte. scheint magisch und mysteriös.
Bearbeiten : schnelle Nachverfolgung. Was ist der Vorteil der Definition von Momenten über den Mittelwert und nicht über den Median für Metriken wie Kurtosis? Wie sind die Eigenschaften von Schätzern:
wobei Median ist. Dies wäre vermutlich weniger empfindlich für Ausreißer in der Verteilung, die den Mittelwert abwerfen, und wäre möglicherweise ein gerechteres Maß für Spitzenwerte.
Antworten:
Es gibt einen guten Grund für diese Definitionen, der klarer wird, wenn Sie die allgemeine Form für Momente standardisierter Zufallsvariablen betrachten. Um diese Frage zu beantworten, betrachten Sie zunächst die allgemeine Form desn ten standardisierten zentralen Moments : ††
Die ersten beiden standardisierten zentralen Momente sind die Werteϕ1=0 und ϕ2=1 , die für alle Verteilungen gelten, für die die obige Größe genau definiert ist. Daher können wir die nicht trivial standardisierten zentralen Momente betrachten, die für Werte n⩾3 . Um unsere Analyse zu erleichtern, definieren wir:
Dies sind nicht negative Größen, die dien te absolute Potenz der standardisierten Zufallsvariablen ergeben, sofern sie über oder unter ihrem erwarteten Wert liegt. Wir werden nun das standardisierte zentrale Moment in diese Teile zerlegen.
Ungerade Werte vonn messen den Versatz in den Schwänzen: Für jeden ungeraden Wert von n⩾3 wir eine ungerade Potenz in der Momentengleichung und können so das standardisierte zentrale Moment als ϕn=ϕ+n−ϕ−n schreiben . Aus dieser Form sehen wir, dass das standardisierte zentrale Moment uns die Differenz zwischen der n ten absoluten Potenz der standardisierten Zufallsvariablen gibt, vorausgesetzt, sie liegt über bzw. unter ihrem Mittelwert.
Somit erhalten wir für jede ungerade Potenzn⩾3 ein Maß, das positive Werte ergibt, wenn die erwartete absolute Potenz der standardisierten Zufallsvariablen für Werte über dem Mittelwert höher ist als für Werte unter dem Mittelwert, und negative Werte ergibt, wenn das erwartete Absolut Die Leistung ist bei Werten über dem Mittelwert niedriger als bei Werten unter dem Mittelwert. Jede dieser Größen könnte vernünftigerweise als Maß für eine Art "Schiefe" angesehen werden, wobei höhere Potenzen Werten, die weit vom Mittelwert entfernt sind, ein größeres relatives Gewicht verleihen.
Da dieses Phänomen für jede ungerade Potenz auftrittn⩾3 , besteht die natürliche Wahl für ein archetypisches Maß für die "Schiefe" darin, ϕ3 als Schiefe zu definieren . Dies ist ein niedrigeres standardisiertes zentrales Moment als die höheren ungeraden Potenzen, und es ist natürlich, Momente niedrigerer Ordnung zu untersuchen, bevor Momente höherer Ordnung berücksichtigt werden. In der Statistik haben wir die Konvention übernommen, dieses standardisierte zentrale Moment als Schiefe zu bezeichnen , da es das niedrigste standardisierte zentrale Moment ist, das diesen Aspekt der Verteilung misst. (Die höheren ungeraden Potenzen messen auch Arten von Schiefen, wobei jedoch Werte, die weit vom Mittelwert entfernt sind, immer stärker betont werden.)
Somit erhalten wir für jede gerade Potenzn⩾3 ein Maß, das nicht negative Werte ergibt, wobei höhere Werte auftreten, wenn die Schwänze der Verteilung der standardisierten Zufallsvariablen dicker sind. Beachten Sie, dass dies ein Ergebnis in Bezug auf die standardisierte Zufallsvariable ist und daher eine Änderung der Skala (Änderung der Varianz) keine Auswirkung auf dieses Maß hat. Vielmehr ist es effektiv ein Maß für die Fettigkeit der Schwänze, nachdem die Varianz der Verteilung standardisiert wurde. Jede dieser Größen könnte vernünftigerweise als Maß für eine Art von "Kurtosis" angesehen werden, wobei höhere Potenzen Werten, die weit vom Mittelwert entfernt sind, ein größeres relatives Gewicht verleihen.
Da dieses Phänomen für jede gerade Potenz auftrittn⩾3 , besteht die natürliche Wahl für ein archetypisches Maß für die Kurtosis darin, ϕ4 als Kurtosis zu definieren . Dies ist ein niedrigeres standardisiertes zentrales Moment als die höheren geraden Potenzen, und es ist natürlich, Momente niedrigerer Ordnung zu untersuchen, bevor Momente höherer Ordnung berücksichtigt werden. In der Statistik haben wir die Konvention übernommen, dieses standardisierte zentrale Moment als "Kurtosis" zu bezeichnen, da es das niedrigste standardisierte zentrale Moment ist, das diesen Aspekt der Verteilung misst. (Die höheren geraden Kräfte messen auch Arten von Kurtosis, wobei jedoch Werte, die weit vom Mittelwert entfernt sind, immer stärker betont werden.)
quelle
Ähnliche Frage Was ist so ein "Moment" an "Momenten" einer Wahrscheinlichkeitsverteilung? Ich gab eine physische Antwort auf das, was Momente ansprach.
"Angular acceleration is the derivative of angular velocity, which is the derivative of angle with respect to time, i.e.,dωdt=α,dθdt=ω . Consider that the second moment is analogous to torque applied to a circular motion, or if you will an acceleration/deceleration (also second derivative) of that circular (i.e., angular, θ ) motion. Similarly, the third moment would be a rate of change of torque, and so on and so forth for yet higher moments to make rates of change of rates of change of rates of change, i.e., sequential derivatives of circular motion...."
See the link as this is perhaps easier to visualize this with physical examples.
Skewness is easier to understand than kurtosis. A negative skewness is a heavier left tail (or further negative direction outlier) than on the right and positive skewness the opposite.
Wikipedia cites Westfall (2014) and implies that high kurtosis arises either for random variables that have far outliers or for density functions with one or two heavy tails while claiming that any central tendency of data or density has relatively little effect on the kurtosis value. Low values of kurtosis would imply the opposite, i.e., a lack ofx -axis outliers and the relative lightness of both tails.
quelle