Was genau sind Momente? Wie werden sie abgeleitet?

19

Wir werden in der Regel mit der Methode der Momentschätzer vertraut gemacht, indem wir "Populationsmomente ihrem Beispielgegenstück zuordnen", bis wir alle Populationsparameter geschätzt haben. so dass wir im Falle einer Normalverteilung nur den ersten und den zweiten Moment benötigen würden, weil sie diese Verteilung vollständig beschreiben.

E(X)=μi=1nXi/n=X¯

E(X2)=μ2+σ2i=1nXi2/n

Und wir könnten theoretisch bis zu zusätzliche Momente berechnen als:n

E(Xr)i=1nXir/n

Wie kann ich eine Intuition für die Momente aufbauen, die wirklich sind? Ich weiß, dass sie als ein Konzept in der Physik und in der Mathematik existieren, aber ich finde sie auch nicht direkt anwendbar, insbesondere weil ich nicht weiß, wie ich die Abstraktion vom Massenkonzept zu einem Datenpunkt machen kann. Der Begriff scheint in der Statistik spezifisch verwendet zu werden, was sich von der Verwendung in anderen Disziplinen unterscheidet.

Welche Eigenschaft meiner Daten bestimmt, wie viele ( ) Momente es insgesamt gibt?r

Constantin
quelle
7
Der Begriff bedeutet dasselbe, was er in der Physik tut, wenn er auf die Wahrscheinlichkeitsverteilung angewendet wird. Siehe hier , welche die Gleichung hat: , " wobei die Verteilung der Ladungsdichte, Masse oder welcher Menge auch immer ist, die in Betracht gezogen wird ". Wenn das "Betrachtete" die Wahrscheinlichkeitsdichte ist, haben Sie den entsprechenden Moment der Wahrscheinlichkeit. Das sind rohe Momente (Momente über den Ursprung). Zum Vergleich: (ctd)ρμn=rnρ(r)drρ
Glen_b -Reinstate Monica
2
Momente sind parametrisierte Merkmale der Verteilung von Zufallsvariablen wie Quantile. Momente werden durch die natürlichen Zahlen parametrisiert und charakterisieren eine Verteilung vollständig (siehe Momenterzeugungsfunktion ). Dies schließt nicht aus, dass für einige Verteilungen eine perfekte funktionale Abhängigkeit zwischen den Momenten besteht, so dass nicht immer alle Momente erforderlich sind, um die Verteilung zu charakterisieren. (1/2)
tchakravarty
Momente sind funktional von den ersten beiden für die Normalverteilung abhängig, sodass die ersten beiden ausreichen, um die Verteilung einschließlich Mittelwert und Varianz zu charakterisieren. (2/2)3
tchakravarty
5
(ctd) ... Momente in der Mathematik sind die gleichen ( ) mit Ausnahme von anstelle von 0 (dh nur eine verallgemeinerte Form der Physik - aber da sie mit einem bloßen Ursprungswechsel identisch sind, würde ein Physiker zu Recht sagen: "Wie ist das anders?"). Dies ist die gleiche Wahrscheinlichkeit wie, wenn eine Dichte ist. Für mich reden alle drei über dasselbe, wenn sie "Momente" sagen, nicht über verschiedene Dinge. c fμn=-(x-c)nf(x)dxcf
Glen_b
3
Ich bin sicher, Sie finden Antworten in den vielen Threads, die über Momente und Intuition gepostet wurden . In der Statistik werden Momente genauso verwendet wie in der Physik und der Mathematik - es ist dasselbe Konzept mit derselben Definition in allen drei Bereichen.
Whuber

Antworten:

17

Es ist lange her, dass ich einen Physikkurs besucht habe, also lass es mich wissen, wenn irgendetwas nicht stimmt.

Allgemeine Beschreibung von Momenten mit physikalischen Analoga

Nehmen Sie eine Zufallsvariable, . Der te Moment von um ist: Dies entspricht genau dem physikalischen Sinn eines Moments. Stellen Sie sich als eine Sammlung von Punkten entlang der realen Linie mit der im PDF angegebenen Dichte vor. Platzieren Sie einen Drehpunkt unter dieser Linie bei und beginnen Sie mit der Berechnung der Momente in Bezug auf diesen Drehpunkt. Die Berechnungen entsprechen genau den statistischen Momenten.n X c m n ( c ) = E [ ( X - c ) n ] X cXnXc

mn(c)=E[(X-c)n]
Xc

Meistens bezieht sich das te Moment von auf den Moment um 0 (Momente, in denen der Drehpunkt auf 0 gesetzt ist): Das te zentrale Moment von ist: Dies entspricht Momenten, in denen der Drehpunkt im Mittelpunkt der Masse liegt, sodass die Verteilung ausgeglichen ist. Momente können so leichter interpretiert werden, wie wir weiter unten sehen werden. Der erste zentrale Moment wird immer Null sein, da die Verteilung ausgeglichen ist.X m n = E [ X n ] n X m n = m n ( m 1 ) = E [ ( X - m 1 ) n ]nX

mn=E[Xn]
nX
m^n=mn(m1)=E[(X-m1)n]

Das te standardisierte Moment von ist: Wieder skaliert dies Momente durch die Ausbreitung der Verteilung, was eine einfachere Interpretation speziell von Kurtosis ermöglicht. Der erste standardisierte Moment wird immer Null sein, der zweite wird immer Eins sein. Dies entspricht dem Moment der Standardbewertung (Z-Bewertung) einer Variablen. Ich habe kein großartiges physikalisches Analogon für dieses Konzept.X ~ m n = m nnX

m~n=m^n(m^2)n=E[(X-m1)n](E[(X-m1)2])n

Häufig verwendete Momente

Für jede Distribution gibt es möglicherweise unendlich viele Momente. Genügend Momente werden fast immer vollständig charakterisiert und verteilt (das Ableiten der notwendigen Bedingungen, um sicher zu sein, ist ein Teil des Momentproblems ). In der Statistik wird häufig über vier Momente gesprochen:

  1. Mittelwert - der 1. Moment (zentriert um Null). Es ist der Massenschwerpunkt der Verteilung, oder es ist alternativ proportional zum Moment des Drehmoments der Verteilung relativ zu einem Drehpunkt bei 0.
  2. Varianz - der 2. zentrale Moment. Wird so interpretiert, dass es den Grad darstellt, in dem sich die Verteilung von ausbreitet. Sie entspricht dem Trägheitsmoment einer auf ihrem Drehpunkt ausgeglichenen Verteilung.X
  3. Schiefe - der 3. zentrale Moment (manchmal standardisiert). Ein Maß für die Neigung einer Verteilung in die eine oder andere Richtung. Im Vergleich zu einer Normalverteilung (die keinen Versatz aufweist) weisen positiv versetzte Verteilungen eine geringe Wahrscheinlichkeit extrem hoher Ergebnisse auf, negativ versetzte Verteilungen weisen eine geringe Wahrscheinlichkeit extrem niedriger Ergebnisse auf. Physikalische Analoga sind schwierig, messen aber locker die Asymmetrie einer Verteilung. Die folgende Abbildung stammt beispielsweise aus Wikipedia . Skewness aus Wikipedia
  4. Kurtosis - der 4. standardisierte Moment, normalerweise überschüssige Kurtosis, der 4. standardisierte Moment minus drei. Die Kurtosis misst, inwieweit Wahrscheinlichkeit erhöht, dass die Verteilung im Verhältnis zu den Schwänzen im Mittelpunkt steht. Höhere Kurtosis bedeutet weniger häufige größere Abweichungen vom Mittelwert und häufiger kleinere Abweichungen. Es wird oft relativ zur Normalverteilung interpretiert, die ein viertes normiertes Moment von 3 und damit eine überschüssige Kurtosis von 0 hat. Hier ist ein physikalisches Analog noch schwieriger, aber in der folgenden Abbildung aus Wikipedia sind die Verteilungen mit höheren Peaks eine größere Kurtosis haben. XKurtosis, auch aus Wikipedia

Wir sprechen selten über Momente jenseits von Kurtosis, gerade weil sie sehr wenig Intuition haben. Dies ähnelt dem Anhalten von Physikern nach dem zweiten Moment.

jayk
quelle
6

Dies ist ein bisschen wie ein alter Thread, aber ich möchte eine falsche Darstellung in dem Kommentar von Fg Nu korrigieren, der schrieb "Momente werden durch die natürlichen Zahlen parametrisiert und charakterisieren eine Verteilung vollständig".

Momente charakterisieren eine Distribution NICHT vollständig. Insbesondere bestimmt die Kenntnis aller unendlich vielen Momente, auch wenn sie existieren, nicht notwendigerweise die Verteilung eindeutig.

Gemäß meinem Lieblings-Wahrscheinlichkeitsbuch, Feller "Eine Einführung in die Wahrscheinlichkeitstheorie und ihre Anwendungen, Band II" (siehe meine Antwort unter Beispiele für gängige Verteilungen aus der Praxis), Abschnitt VII.3, Beispiel auf S. 227-228, wird das Lognormal nicht bestimmt durch seine Momente, was bedeutet, dass es andere Verteilungen gibt, die alle unendlich viele Momente haben, die mit der Lognormal-Funktion identisch sind, aber unterschiedliche Verteilungsfunktionen haben. Wie allgemein bekannt ist, gibt es die Momenterzeugungsfunktion für das Lognormal nicht und kann es auch für diese anderen Verteilungen nicht geben, die die gleichen Momente besitzen.

Wie auf p angegeben. In 228 wird eine im Wesentlichen von Null verschiedene Zufallsvariable durch ihre Momente bestimmt, wenn sie alle existieren undX

n=1(E[X2n])-1/(2n)

divergiert. Beachten Sie, dass dies nicht nur dann ein Fall ist, wenn. Diese Bedingung gilt nicht für das Lognormal und wird in der Tat nicht durch seine Momente bestimmt.

Andererseits können sich Verteilungen (Zufallsvariablen), die alle unendlich viele Momente gemeinsam haben, aufgrund von Ungleichungen, die aus ihren Momenten abgeleitet werden können, nur um so viel unterscheiden.

Mark L. Stone
quelle
Dies vereinfacht sich erheblich, wenn die Verteilung begrenzt ist. In diesem Fall bestimmen die Momente die Verteilung immer vollständig (eindeutig).
Alex R.
@Alex Das ist eine unmittelbare Folge des in Feller zitierten Ergebnisses.
Whuber
Es ist nicht ganz richtig zu sagen, dass die Momentgenerierungsfunktion für das Lognormal nicht existiert. Die nützlichsten Theoreme über mgfs gehen davon aus, dass es in einem offenen Intervall mit Null existiert und im engeren Sinne nicht. Aber es gibt es in einem Strahl, der von Null ausgeht! Und der auch nützliche Informationen liefert.
kjetil b halvorsen
@ kjetil b halvorsen, können Sie die nützlichen Informationen beschreiben, die Sie aus der Existenz der MGF eines Lognormalen auf einem von Null ausgehenden Strahl erhalten würden? Welcher Strahl wäre das?
Mark L. Stone
Bump des obigen Kommentars als Frage an @kjetil b halvorsen ..
Mark L. Stone
2

Eine Konsequenz aus Glen_bs Ausführungen ist, dass der erste Moment, der Mittelwert, dem Schwerpunkt eines physischen Objekts und der zweite Moment um den Mittelwert, die Varianz, seinem Trägheitsmoment entspricht. Danach bist du auf dich allein gestellt.

Mike Anderson
quelle
3
E[x2]=x2f(x)dx veinr[x]=E[(x-E[x])2]=(x-E[x])2f(x)dx
0

Ein Binomialbaum hat zwei Zweige mit einer Wahrscheinlichkeit von jeweils 0,5. Tatsächlich ist p = 0,5 und q = 1 bis 0,5 = 0,5. Dies erzeugt eine Normalverteilung mit einer gleichmäßig verteilten Wahrscheinlichkeitsmasse.

Eigentlich müssen wir davon ausgehen, dass jede Stufe im Baum vollständig ist. Wenn wir Daten in Klassen aufteilen, erhalten wir eine reelle Zahl von der Division, aber wir runden auf. Nun, das ist eine Stufe, die unvollständig ist, so dass wir kein Histogramm erhalten, das sich dem Normalen annähert.

Ändern Sie die Verzweigungswahrscheinlichkeiten auf p = 0,9999 und q = 0,0001, und dies führt zu einer verzerrten Normalität. Die Wahrscheinlichkeitsmasse hat sich verschoben. Das erklärt die Schiefe.

Wenn unvollständige Schichten oder Klassen kleiner als 2 ^ n sind, werden Binomialbäume mit Bereichen ohne Wahrscheinlichkeitsmasse generiert. Dies gibt uns Kurtosis.


Antwort auf Kommentar:

Wenn ich über die Ermittlung der Anzahl der Fächer sprach, runden Sie auf die nächste Ganzzahl auf.

Quincunx-Maschinen werfen Kugeln ab, die über das Binomial die Normalverteilung erreichen. Eine solche Maschine geht von mehreren Annahmen aus: 1) Die Anzahl der Klassen ist endlich, 2) Der zugrunde liegende Baum ist binär, und 3) Die Wahrscheinlichkeiten sind festgelegt. Mit der Quincunx-Maschine im Museum of Mathematics in New York kann der Benutzer die Wahrscheinlichkeiten dynamisch ändern. Die Wahrscheinlichkeiten können sich jederzeit ändern, noch bevor die aktuelle Ebene fertig ist. Daher die Vorstellung, dass die Mülleimer nicht gefüllt sind.

Im Gegensatz zu dem, was ich in meiner ursprünglichen Antwort gesagt habe, wenn Sie eine Lücke im Baum haben, zeigt die Verteilung Kurtosis.

Ich betrachte dies aus der Perspektive generativer Systeme. Ich verwende ein Dreieck, um Entscheidungsbäume zusammenzufassen. Wenn eine neue Entscheidung getroffen wird, werden mehr Fächer an der Basis des Dreiecks und in Bezug auf die Verteilung in den Schwänzen hinzugefügt. Das Trimmen von Teilbäumen aus dem Baum würde Lücken in der Wahrscheinlichkeitsmasse der Verteilung hinterlassen.

Ich habe nur geantwortet, um Ihnen einen intuitiven Sinn zu geben. Etiketten? Ich habe Excel verwendet und mit den Wahrscheinlichkeiten im Binomial gespielt und die erwarteten Versätze erzeugt. Ich habe es mit Kurtosis nicht getan, es hilft nicht, dass wir gezwungen sind, die Wahrscheinlichkeitsmasse als statisch zu betrachten, während wir eine Sprache verwenden, die Bewegung suggeriert. Die zugrunde liegenden Daten oder Bälle verursachen die Kurtosis. Dann analysieren wir es auf verschiedene Weise und ordnen es beschreibenden Begriffen wie Mitte, Schulter und Schwanz zu. Die einzigen Dinge, mit denen wir arbeiten müssen, sind die Mülleimer. Bins leben dynamische Leben, auch wenn die Daten nicht können.

David Locke
quelle
2
Das ist faszinierend, aber schrecklich lückenhaft. Was sind zum Beispiel die Bezeichnungen in Ihrem Binomialbaum? Es wäre besser, ein unendlicher Baum zu sein, wenn Sie eine Normalverteilung erhalten möchten - aber dann führen die offensichtlichen Bezeichnungen (durch einen Zufallslauf oder durch binäre Darstellungen von reellen Zahlen) überhaupt nicht zu Normalverteilungen. Ohne diese Details bleibt den Lesern zu viel Fantasie. Könnten Sie sie näher erläutern?
Whuber