Intuition für Momente über den Mittelwert einer Verteilung?

Kann jemand eine Vorstellung davon geben, warum die höheren Momente einer Wahrscheinlichkeitsverteilung p(x)wie der dritte und vierte Moment Schiefe bzw. Kurtosis entsprechen?

Warum führt die Abweichung vom Mittelwert zur 3. oder 4. Potenz zu einem Maß für Schiefe und Kurtosis? Gibt es eine Möglichkeit, dies mit der dritten oder vierten Ableitung der Funktion in Beziehung zu setzen?

Betrachten Sie diese Definition von Kurtosis:

$Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4$

Auch hier ist nicht klar, warum das Erhöhen von $(x-\mu)^4$ "Peakedness" ergibt oder warum $(x-\mu)^3$ einen Versatz ergeben sollte. scheint magisch und mysteriös.

Bearbeiten : schnelle Nachverfolgung. Was ist der Vorteil der Definition von Momenten über den Mittelwert und nicht über den Median für Metriken wie Kurtosis? Wie sind die Eigenschaften von Schätzern:

$MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4$

wobei Median ist. Dies wäre vermutlich weniger empfindlich für Ausreißer in der Verteilung, die den Mittelwert abwerfen, und wäre möglicherweise ein gerechteres Maß für Spitzenwerte. $\tilde{x}$

mathematical-statistics skewness moments intuition kurtosis user248237
quelle

Meine Intuition in Bezug auf Schrägstellung ist zu bemerken, dass die dritte Potenz Negative bewahrt. Wenn Sie also mehr große negative Abweichungen vom Mittelwert haben als positive (ganz einfach ausgedrückt), erhalten Sie eine negative verzerrte Verteilung. Meine Intuition für die Kurtosis ist, dass die vierte Potenz große Abweichungen vom Mittelwert viel stärker verstärkt als die zweite Potenz. Aus diesem Grund betrachten wir Kurtosis als Maß dafür, wie fett die Schwänze einer Verteilung sind. Beachten Sie, dass sehr große Möglichkeiten von x vom Mittelwert mu auf die vierte Potenz angehoben werden, wodurch sie verstärkt werden, das Vorzeichen jedoch ignoriert wird.

Wolfsatthedoor

Siehe stats.stackexchange.com/questions/84158/…

whuber

Da die 4. Potenz viel stärker von Ausreißern betroffen ist als die 1. Potenz, werden Sie wahrscheinlich wenig davon profitieren, wenn Sie den vierten Moment über den Median betrachten - zumindest wenn Robustheit das Ziel war.

Glen_b -State Monica

Beachten Sie zunächst, dass diese höheren Momente nicht unbedingt gute / zuverlässige Maße für Asymmetrie / Peakedness sind. Trotzdem denke ich, dass Balken für die ersten drei Momente eine gute physische Intuition vermitteln, z. B. Mittelwert = Balkenbalance / -skala , Varianz = Cantilever-Biegung , Schiefe = Wippe .

GeoMatt22

Sie haben Recht, die Interpretation von Kurtosis als Maß für "Peakedness" ist magisch und mysteriös. Das liegt daran, dass es überhaupt nicht wahr ist. Kurtosis sagt dir absolut nichts über den Gipfel. Es misst nur die Schwänze (Ausreißer). Es ist mathematisch leicht zu beweisen, dass die Beobachtungen in der Nähe des Peaks einen winzigen Betrag zum Kurtosis-Maß beitragen, unabhängig davon, ob der Peak flach, mit Stacheln versehen, bimodal, sinusförmig oder glockenförmig ist.

Peter Westfall

Antworten:

Es gibt einen guten Grund für diese Definitionen, der klarer wird, wenn Sie die allgemeine Form für Momente standardisierter Zufallsvariablen betrachten. Um diese Frage zu beantworten, betrachten Sie zunächst die allgemeine Form des $n$ ten standardisierten zentralen Moments : $^\dagger$

ϕ_{n} = E [(\frac{X - E [X]}{S [X]})^{n}] .

$\phi_n = \mathbb{E} \Bigg[ \Bigg( \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg)^n \text{ } \Bigg].$

Die ersten beiden standardisierten zentralen Momente sind die Werte $\phi_1=0$ und $\phi_2=1$ , die für alle Verteilungen gelten, für die die obige Größe genau definiert ist. Daher können wir die nicht trivial standardisierten zentralen Momente betrachten, die für Werte $n \geqslant 3$ . Um unsere Analyse zu erleichtern, definieren wir:

\begin{aligned} ϕ_{n}^{+} & = E [| \frac{X - E [X]}{S [X]} |^{n} | X > E [X]] \cdot P (X > E [X]), \\ ϕ_{n}^{-} & = E [| \frac{X - E [X]}{S [X]} |^{n} | X < E [X]] \cdot P (X < E [X]) . \end{aligned}

$\begin{equation} \begin{aligned} \phi_n^+ &= \mathbb{E} \Bigg[ \Bigg| \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg|^n \text{ } \Bigg| X > \mathbb{E}[X] \Bigg] \cdot \mathbb{P}(X > \mathbb{E}[X]), \\[8pt] \phi_n^- &= \mathbb{E} \Bigg[ \Bigg| \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg|^n \text{ } \Bigg| X < \mathbb{E}[X] \Bigg] \cdot \mathbb{P}(X < \mathbb{E}[X]). \end{aligned} \end{equation}$

Dies sind nicht negative Größen, die die $n$ te absolute Potenz der standardisierten Zufallsvariablen ergeben, sofern sie über oder unter ihrem erwarteten Wert liegt. Wir werden nun das standardisierte zentrale Moment in diese Teile zerlegen.

Ungerade Werte von $n$ messen den Versatz in den Schwänzen: Für jeden ungeraden Wert von $n \geqslant 3$ wir eine ungerade Potenz in der Momentengleichung und können so das standardisierte zentrale Moment als $\phi_n = \phi_n^+ - \phi_n^-$ schreiben . Aus dieser Form sehen wir, dass das standardisierte zentrale Moment uns die Differenz zwischen der $n$ ten absoluten Potenz der standardisierten Zufallsvariablen gibt, vorausgesetzt, sie liegt über bzw. unter ihrem Mittelwert.

Somit erhalten wir für jede ungerade Potenz $n \geqslant 3$ ein Maß, das positive Werte ergibt, wenn die erwartete absolute Potenz der standardisierten Zufallsvariablen für Werte über dem Mittelwert höher ist als für Werte unter dem Mittelwert, und negative Werte ergibt, wenn das erwartete Absolut Die Leistung ist bei Werten über dem Mittelwert niedriger als bei Werten unter dem Mittelwert. Jede dieser Größen könnte vernünftigerweise als Maß für eine Art "Schiefe" angesehen werden, wobei höhere Potenzen Werten, die weit vom Mittelwert entfernt sind, ein größeres relatives Gewicht verleihen.

Da dieses Phänomen für jede ungerade Potenz $n \geqslant 3$ , besteht die natürliche Wahl für ein archetypisches Maß für die "Schiefe" darin, $\phi_3$ als Schiefe zu definieren . Dies ist ein niedrigeres standardisiertes zentrales Moment als die höheren ungeraden Potenzen, und es ist natürlich, Momente niedrigerer Ordnung zu untersuchen, bevor Momente höherer Ordnung berücksichtigt werden. In der Statistik haben wir die Konvention übernommen, dieses standardisierte zentrale Moment als Schiefe zu bezeichnen , da es das niedrigste standardisierte zentrale Moment ist, das diesen Aspekt der Verteilung misst. (Die höheren ungeraden Potenzen messen auch Arten von Schiefen, wobei jedoch Werte, die weit vom Mittelwert entfernt sind, immer stärker betont werden.)

$n$ Werte von messen die Fettigkeit von Schwänzen: Für jeden geraden Wert von $n \geqslant 3$ wir eine gerade Potenz in der Momentengleichung und können so das standardisierte zentrale Moment als $\phi_n = \phi_n^+ + \phi_n^-$ schreiben . Aus dieser Form sehen wir, dass das standardisierte Zentralmoment uns die Summe der $n$ ten absoluten Potenz der standardisierten Zufallsvariablen gibt, vorausgesetzt, dass sie über bzw. unter ihrem Mittelwert liegt.

Somit erhalten wir für jede gerade Potenz $n \geqslant 3$ ein Maß, das nicht negative Werte ergibt, wobei höhere Werte auftreten, wenn die Schwänze der Verteilung der standardisierten Zufallsvariablen dicker sind. Beachten Sie, dass dies ein Ergebnis in Bezug auf die standardisierte Zufallsvariable ist und daher eine Änderung der Skala (Änderung der Varianz) keine Auswirkung auf dieses Maß hat. Vielmehr ist es effektiv ein Maß für die Fettigkeit der Schwänze, nachdem die Varianz der Verteilung standardisiert wurde. Jede dieser Größen könnte vernünftigerweise als Maß für eine Art von "Kurtosis" angesehen werden, wobei höhere Potenzen Werten, die weit vom Mittelwert entfernt sind, ein größeres relatives Gewicht verleihen.

Da dieses Phänomen für jede gerade Potenz $n \geqslant 3$ , besteht die natürliche Wahl für ein archetypisches Maß für die Kurtosis darin, $\phi_4$ als Kurtosis zu definieren . Dies ist ein niedrigeres standardisiertes zentrales Moment als die höheren geraden Potenzen, und es ist natürlich, Momente niedrigerer Ordnung zu untersuchen, bevor Momente höherer Ordnung berücksichtigt werden. In der Statistik haben wir die Konvention übernommen, dieses standardisierte zentrale Moment als "Kurtosis" zu bezeichnen, da es das niedrigste standardisierte zentrale Moment ist, das diesen Aspekt der Verteilung misst. (Die höheren geraden Kräfte messen auch Arten von Kurtosis, wobei jedoch Werte, die weit vom Mittelwert entfernt sind, immer stärker betont werden.)

$^\dagger$

Stellen Sie Monica wieder her
quelle

Ähnliche Frage Was ist so ein "Moment" an "Momenten" einer Wahrscheinlichkeitsverteilung? Ich gab eine physische Antwort auf das, was Momente ansprach.

"Angular acceleration is the derivative of angular velocity, which is the derivative of angle with respect to time, i.e., $\dfrac{d\omega}{dt}=\alpha,\,\dfrac{d\theta}{dt}=\omega$ . Consider that the second moment is analogous to torque applied to a circular motion, or if you will an acceleration/deceleration (also second derivative) of that circular (i.e., angular, $\theta$ ) motion. Similarly, the third moment would be a rate of change of torque, and so on and so forth for yet higher moments to make rates of change of rates of change of rates of change, i.e., sequential derivatives of circular motion...."

See the link as this is perhaps easier to visualize this with physical examples.

Skewness is easier to understand than kurtosis. A negative skewness is a heavier left tail (or further negative direction outlier) than on the right and positive skewness the opposite.

Wikipedia cites Westfall (2014) and implies that high kurtosis arises either for random variables that have far outliers or for density functions with one or two heavy tails while claiming that any central tendency of data or density has relatively little effect on the kurtosis value. Low values of kurtosis would imply the opposite, i.e., a lack of $x$ -axis outliers and the relative lightness of both tails.

Carl
quelle

Skewness is the balance point of the pdf of

Z^{3}

$Z^3$ , and kurtosis is the balance point of the pdf of

Z^{4}

$Z^4$ . Both transformations "stretch" the tails, kurtosis more. If the pdf of

Z^{3}

$Z^3$ falls to the right when a fulcrum is placed at 0, then there is positive skew in the original distribution. If the pdf of

Z^{4}

$Z^4$ falls to the right when a fulcrum is placed at 3.0, then the original distribution is heavier-tailed than the normal distribution. Here, "heaviness of tails" refers to more precisely to leverage than to mass. Moors' interpretation is not quite right wrt both mentions of "concentration."

Peter Westfall

@PeterWestfall I agree that Moors' interpretation is imperfect. Precise language is not easily achievable without also being confusing. Take "leverage" for example. Leverage means first moment and one would have to invent something like "leveraged leverage" for the second moment, which might confuse more than illuminate. Your approach appears to invent a novel concept, i.e., "stretched leverage," which hints at geometric transforms for which one might also claim some advocates who favor it as self-consistent at the risk of also being controversial, and non-physical for others.

Carl

"Leverage" refers to the first moment of the variable

U

$U$ , where

U = Z^{4}

$U = Z^4$ . It's not rocket science.

Peter Westfall

@PeterWestfall Not to be too punny, but you are leveraging leverage. Sure, you can still use the word, and if

Z^{4}

$Z^4$ were not a fourth dimensional object, as compared to a one dimensional distance,

Z

$Z$ , it might be even be useful. The context here is that of moments, and creating a physical model for moments. There are several ways that can be done, for example, see my answer about that here. In other words, to put moments into any physical context, we have to do more than hand-waving and invocation of the fourth dimension.

Carl

@PeterWestfall In the context of circular motion, we would call the second moment torque, and not the leverage of

Z^{2}

$Z^2$ , which latter, although not incorrect, does not bring anything physical to mind.

Carl