Kann ich Momente einer Distribution verwenden, um die Distribution abzutasten?

14

Ich stelle fest, dass bei Statistiken / Methoden des maschinellen Lernens eine Verteilung häufig durch einen Gaußschen Wert angenähert wird und dann der Gaußsche Wert für die Stichprobe verwendet wird. Sie beginnen mit der Berechnung der ersten beiden Momente der Verteilung und verwenden diese, um μ und σ2 zu schätzen . Dann können sie von diesem Gaußschen probieren.

Es scheint mir, je mehr Momente ich berechne, desto besser sollte es mir gelingen, die Verteilung, die ich abtasten möchte, anzunähern.

Was ist, wenn ich 3 Momente berechne? Und kann dies auf N Momente ausgedehnt werden?

curious_dan
quelle
2
Drei Momente bestimmen keine Verteilungsform *; Wenn Sie eine Verteilungsfamilie mit drei Parametern auswählen, die sich auf die ersten drei Populationsmomente beziehen, können Sie die Momentananpassung ("Methode der Momente") durchführen, um die drei Parameter zu schätzen und dann Werte aus einer solchen Verteilung zu generieren. Es gibt viele solcher Distributionen.[* In der Tat ist es manchmal nicht ausreichend , alle Momente zu haben, um eine Verteilung zu bestimmen.]
Glen_b
Danke, @Glen_b! Ich werde über die "Methode der Momente" lesen, um zu verstehen, wann es möglich ist. Können Sie mich auf eine Theorie verweisen, die beschreibt, wann die Momente nicht ausreichen, um die Verteilung zu bestimmen?
curious_dan
In "Methode der Momente" erfahren Sie nur, wie Sie Parameter aus Momenten abschätzen können. Der Rest Ihres Kommentars ist eine neue Frage (ich denke, sie wird bereits vor Ort beantwortet); kurz - wenn die Momenterzeugungsfunktion existiert (in einer Nachbarschaft von 0), dann identifiziert sie eine Verteilung eindeutig (technisch könnten Sie im Prinzip eine inverse Laplace-Transformation durchführen). Sicherlich, wenn einige Momente nicht endlich sind, würde dies bedeuten, dass die mgf nicht existiert, aber es gibt auch Fälle, in denen alle Momente endlich sind, die mgf aber immer noch nicht in einer Nachbarschaft von 0 existiert.
Glen_b -Reinstate Monica
Ich schreibe eine Antwort basierend auf meinem Kommentar.
Glen_b -Reinstate Monica

Antworten:

22

Drei Momente bestimmen keine Verteilungsform; Wenn Sie eine Verteilungsfamilie mit drei Parametern auswählen, die sich auf die ersten drei Populationsmomente beziehen, können Sie die Momentananpassung ("Methode der Momente") durchführen, um die drei Parameter zu schätzen und dann Werte aus einer solchen Verteilung zu generieren. Es gibt viele solcher Distributionen.

Manchmal reicht es nicht aus, alle Momente zu haben, um eine Verteilung zu bestimmen. Wenn die Momentgenerierungsfunktion existiert (in einer Nachbarschaft von 0), identifiziert sie eine Verteilung eindeutig (Sie könnten im Prinzip eine inverse Laplace-Transformation durchführen, um sie zu erhalten).

[Wenn einige Momente nicht endlich sind, würde dies bedeuten, dass die mgf nicht existiert, aber es gibt auch Fälle, in denen alle Momente endlich sind, die mgf aber in einer Nachbarschaft von 0 immer noch nicht existiert.]

Bei einer Auswahl von Verteilungen könnte man versucht sein, eine maximale Entropielösung mit der Beschränkung für die ersten drei Momente in Betracht zu ziehen, aber es gibt keine Verteilung auf der realen Linie, die sie erreicht (da die resultierende Kubik im Exponenten unbegrenzt sein wird).


Wie der Prozess für eine bestimmte Verteilungsauswahl funktionieren würde

Wir können den Prozess des Erhaltens einer Verteilungsanpassung drei Momente vereinfachen , indem die Mittel und die Varianz zu ignorieren und mit einem skalierten dritten Moment arbeiten - dem Moment-Schiefe ( γ1=μ3/μ23/2 ).

Dies ist möglich, da wir nach Auswahl einer Verteilung mit der entsprechenden Schiefe den gewünschten Mittelwert und die gewünschte Varianz durch Skalieren und Verschieben zurücksetzen können.

Betrachten wir ein Beispiel. Gestern habe ich einen großen Datensatz erstellt (der sich immer noch in meiner R-Sitzung befindet), dessen Verteilung ich nicht zu berechnen versucht habe (es ist ein großer Satz von Werten des Protokolls der Stichprobenvarianz eines Cauchy bei n) = 10). Wir haben die ersten drei Rohmomente als 1,519, 3,597 bzw. 11,479 oder entsprechend einen Mittelwert von 1,518, eine Standardabweichung * von 1,136 und eine Schiefe von 1,429 (das sind also Stichprobenwerte aus einer großen Stichprobe).

Formal würde die Methode der Momente versuchen, die rohen Momente abzugleichen, aber die Berechnung ist einfacher, wenn wir mit der Schiefe beginnen (das Lösen von drei Gleichungen in drei Unbekannten in das Lösen für jeweils einen Parameter, eine viel einfachere Aufgabe).

* Ich werde die Unterscheidung zwischen der Verwendung eines n-Nenners für die Varianz - entsprechend der formalen Methode der Momente - und eines n-1-Nenners aufheben und einfach Beispielberechnungen verwenden.

Diese Neigung (~ 1,43) zeigt an, dass wir eine Verteilung suchen, die recht neigt. Ich könnte zum Beispiel eine verschobene logarithmische Normalverteilung (drei Parameter lognormal, Form σ , Skala μ und Ortsverschiebung γ ) mit den gleichen Momenten wählen . Beginnen wir mit der Anpassung der Schiefe. Die Populationsschiefe eines Zwei-Parameter-Lognormalen ist:

γ1=(eσ2+2)eσ21

σ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1

μ

Aber wir hätten genauso gut eine Verschiebung der Gamma- oder Weibull-Verteilung (oder eine Verschiebung der F-Verteilung oder eine beliebige andere Auswahl) wählen und im Wesentlichen den gleichen Prozess durchlaufen können. Jeder von ihnen wäre anders.

[Für die Probe, mit der ich zu tun hatte, wäre ein verschobenes Gamma wahrscheinlich eine wesentlich bessere Wahl gewesen als ein verschobenes Lognormal, da die Verteilung der Logs der Werte schief und die Verteilung ihrer Kubikwurzel sehr nahe an der Symmetrie lag; diese stimmen mit den Gammadichten überein, die Sie bei (nicht verschobenen) Gammadichten sehen werden, aber eine nach links verschobene Dichte der Protokolle kann mit keinem verschobenen Protokollnormal erreicht werden.]

Man könnte sogar das Schiefe-Kurtosis-Diagramm in einem Pearson-Diagramm nehmen und eine Linie bei der gewünschten Schiefe zeichnen und dadurch eine Zweipunktverteilung, eine Folge von Beta-Verteilungen, eine Gamma-Verteilung, eine Folge von Beta-Prim-Verteilungen, eine inverse Verteilung erhalten. Gamma-Verteilung und eine Sequenz von Pearson-Typ-IV-Verteilungen, alle mit der gleichen Schiefe.

β1=γ12β2

Pearson plot with desired skewness line drawn in

Die grüne horizontale Linie steht für γ12=2.042σ


Weitere Momente

Momente ordnen sich nicht sehr gut in Verteilungen ein, und selbst wenn Sie viele Momente angeben, gibt es immer noch viele verschiedene Verteilungen (insbesondere in Bezug auf ihr Extrem-Tail-Verhalten), die mit ihnen übereinstimmen.

Sie können natürlich eine Verteilungsfamilie mit mindestens vier Parametern auswählen und versuchen, mehr als drei Momente zuzuordnen. Mit den obigen Pearson-Verteilungen können wir beispielsweise die ersten vier Momente abgleichen, und es gibt andere Verteilungsoptionen, die einen ähnlichen Grad an Flexibilität ermöglichen.

Man kann andere Strategien anwenden, um Verteilungen auszuwählen, die mit Verteilungsmerkmalen übereinstimmen können - Mischungsverteilungen, Modellierung der Log-Dichte unter Verwendung von Splines und so weiter.

Wenn man jedoch zu dem ursprünglichen Zweck zurückkehrt, für den man versucht hat, eine Distribution zu finden, stellt sich häufig heraus, dass etwas Besseres getan werden kann als die hier beschriebene Strategie.

Glen_b - Setzen Sie Monica wieder ein
quelle
2

Die Antwort lautet also im Allgemeinen NEIN. Sie können dies nicht tun, aber manchmal können Sie es.

Wenn du nicht kannst

Die Gründe, warum Sie dies normalerweise nicht tun können, sind zwei.

Erstens, wenn Sie N Beobachtungen haben, können Sie höchstens N Momente berechnen. Was ist mit den anderen Momenten? Sie können sie nicht einfach auf Null setzen.

γ100=ixi100n

Wenn du kannst

Jetzt manchmal können Sie die Verteilung von Momenten bekommen. Es ist, wenn Sie eine Annahme über die Verteilung einer Art machen. Zum Beispiel erklären Sie, dass es normal ist. In diesem Fall brauchen Sie nur zwei Momente, die in der Regel mit anständiger Genauigkeit berechnet werden können. Beachten Sie , dass Normalverteilung hat höhere Momente, in der Tat, zum Beispiel Kurtosis, aber wir haben sie nicht brauchen. Wenn Sie alle Momente der Normalverteilung berechnen würden (ohne davon auszugehen, dass dies normal ist), und dann versuchen würden, die charakteristische Funktion für die Stichprobe aus der Verteilung wiederherzustellen, würde dies nicht funktionieren. Wenn Sie jedoch die höheren Momente vergessen und sich an die ersten beiden halten, funktioniert es.

Aksakal
quelle