Normalverteilung und monotone Transformationen

9

Ich habe gehört, dass viele Mengen, die in der Natur vorkommen, normal verteilt sind. Dies wird normalerweise mit dem zentralen Grenzwertsatz gerechtfertigt, der besagt, dass Sie eine Normalverteilung erhalten, wenn Sie eine große Anzahl von iid-Zufallsvariablen mitteln. So kann beispielsweise ein Merkmal, das durch die additive Wirkung einer großen Anzahl von Genen bestimmt wird, ungefähr normal verteilt sein, da sich die Genwerte ungefähr wie iid-Zufallsvariablen verhalten können.

Was mich jetzt verwirrt, ist, dass die Eigenschaft, normal verteilt zu sein, unter monotonen Transformationen eindeutig nicht unveränderlich ist. Wenn es also zwei Möglichkeiten gibt, etwas zu messen, das durch eine monotone Transformation in Beziehung steht, ist es unwahrscheinlich, dass beide normal verteilt sind (es sei denn, diese monotone Transformation ist linear). Zum Beispiel können wir die Größe von Regentropfen nach Durchmesser, Oberfläche oder Volumen messen. Unter der Annahme ähnlicher Formen für alle Regentropfen ist die Oberfläche proportional zum Quadrat des Durchmessers und das Volumen proportional zum Würfel des Durchmessers. Alle diese Messmethoden können also nicht normal verteilt werden.

Meine Frage ist also, ob die bestimmte Art der Skalierung (dh die bestimmte Wahl der monotonen Transformation), unter der die Verteilung normal wird, eine physikalische Bedeutung haben muss. Sollten beispielsweise Höhen normal verteilt sein oder das Quadrat der Höhe oder der Logarithmus der Höhe oder die Quadratwurzel der Höhe? Gibt es eine Möglichkeit, diese Frage zu beantworten, indem Sie die Prozesse verstehen, die sich auf die Höhe auswirken?

data-transformation normality-assumption Vipul
quelle

Wie ich es immer verstanden habe, postuliert der zentrale Grenzwertsatz nichts über die Mittelung einer großen Anzahl von iid-Zufallsvariablen. Vielmehr heißt es, dass bei Stichprobenmitteln die Verteilung der Mittel normal wird (unabhängig von der Verteilung, die dem Stichprobenmittel zugrunde liegt). Ich frage mich also, ob die Vorgeschichte für Ihre Frage zutrifft.

Henrik

Wenn jedoch der Stichprobenmittelwert unabhängig von der Verteilung der zugrunde liegenden Verteilung normal wird, bedeutet dies nicht, dass die Mittelung einer großen Anzahl von iid-Zufallsvariablen eine Normalverteilung ergibt. Für mich scheinen sie gleichwertige Aussagen zu sein.

Nicht in meinen Augen (aber ich möchte anders überzeugt sein). In dem einen Fall (der meiner Meinung nach mit CLT gemeint ist) ziehen Sie Proben aus einer Verteilung. Ihre Mittel sind normal verteilt. Was ich aus der Frage und dem Zitat "Durchschnitt einer großen Anzahl von iid-Zufallsvariablen" verstehe, ist etwas anderes: Einzelne Instanziierungen aus verschiedenen iid-Zufallsvariablen bestimmen (oder bilden) ein Merkmal. Daher keine Mittelung (dh Berechnung eines Mittelwerts) aus einer einzelnen Verteilung und daher keine Anwendung der CLT. Ich denke, die Antworten von mbq deuten auf dasselbe Problem hin.

Henrik

1

Nun, die Verteilung muss nicht identisch sein, wenn einige Bedingungen gelten. Siehe: en.wikipedia.org/wiki/…

1

@Henrik Gibt es einen bedeutenden Unterschied zwischen einer einzelnen Probe von jeweils N unabhängigen und identisch verteilten Wohnmobilen und N unabhängigen Messungen eines einzelnen Wohnmobils?

Walkytalky

5

Sehr gute Frage. Ich bin der Meinung, dass die Antwort davon abhängt, ob Sie den zugrunde liegenden Prozess identifizieren können, der zur fraglichen Messung führt. Wenn Sie beispielsweise nachweisen können, dass die Größe eine lineare Kombination mehrerer Faktoren ist (z. B. Größe der Eltern, Größe der Großeltern usw.), ist es selbstverständlich anzunehmen, dass die Größe normal verteilt ist. Wenn Sie andererseits Beweise oder vielleicht sogar eine Theorie haben, dass das Höhenprotokoll eine lineare Kombination mehrerer Variablen ist (z. B. Elternhöhen, Großelternhöhen usw.), wird das Höhenprotokoll normal verteilt.

In den meisten Situationen kennen wir den zugrunde liegenden Prozess, der die Messung des Interesses antreibt, nicht. Somit können wir eines von mehreren Dingen tun:

(a) Wenn die empirische Höhenverteilung normal aussieht, verwenden wir die Normaldichte für die weitere Analyse, die implizit davon ausgeht, dass die Höhe eine lineare Kombination mehrerer Variablen ist.

(b) Wenn die empirische Verteilung nicht normal aussieht, können wir eine Transformation versuchen, wie von mbq vorgeschlagen (z. B. log (Höhe)). In diesem Fall nehmen wir implizit an, dass die transformierte Variable (dh log (Höhe)) eine lineare Kombination mehrerer Variablen ist.

(c) Wenn (a) oder (b) nicht helfen, müssen wir die Vorteile, die CLT und eine Annahme der Normalität bieten, aufgeben und die Variable unter Verwendung einer anderen Verteilung modellieren.

Gemeinschaft
quelle

5

Die Neuskalierung einer bestimmten Variablen sollte sich nach Möglichkeit auf einen verständlichen Maßstab beziehen, da dies dazu beiträgt, das resultierende Modell interpretierbar zu machen. Die resultierende Transformation muss jedoch nicht unbedingt eine physikalische Bedeutung haben. Im Wesentlichen müssen Sie einen Kompromiss zwischen der Verletzung der Normalitätsannahme und der Interpretierbarkeit Ihres Modells eingehen. Was ich in diesen Situationen gerne mache, ist, die Originaldaten, die Daten auf sinnvolle Weise und die Daten auf die normalste Weise transformieren zu lassen. Wenn die auf sinnvolle Weise transformierten Daten mit den Ergebnissen übereinstimmen, wenn die Daten auf eine Weise transformiert werden, die sie am normalsten macht, Ich berichte es auf eine Weise, die mit einer Randnotiz interpretierbar ist, dass die Ergebnisse bei den optimal transformierten (und / oder nicht transformierten) Daten gleich sind. Wenn sich die nicht transformierten Daten besonders schlecht verhalten, führe ich meine Analysen mit den transformierten Daten durch, gebe jedoch mein Bestes, um die Ergebnisse in nicht transformierten Einheiten zu melden.

Ich denke auch, dass Sie in Ihrer Aussage ein Missverständnis haben, dass "Mengen, die in der Natur vorkommen, normal verteilt sind". Dies gilt nur in Fällen, in denen der Wert "durch den additiven Effekt einer großen Anzahl" unabhängiger Faktoren bestimmt wird. Das heißt, Mittelwerte und Summen werden normal verteilt, unabhängig von der zugrunde liegenden Verteilung, aus der sie stammen, wobei nicht erwartet wird, dass einzelne Werte normal verteilt sind. Wie zum Beispiel, sehen einzelne Ziehungen aus einer Binomialverteilung überhaupt nicht normal aus, aber eine Verteilung der Summen von 30 Ziehungen aus einer Binomialverteilung sieht eher normal aus.

russellpierce
quelle

5

Ich muss zugeben, dass ich Ihre Frage nicht wirklich verstehe:

Ihr Regentropfen-Beispiel ist nicht sehr zufriedenstellend, da dies nicht die Tatsache veranschaulicht, dass das Gaußsche Verhalten aus dem "Durchschnitt einer großen Anzahl von iid-Zufallsvariablen" stammt.
$X$ $\frac{Y_1+\ldots+Y_N}{N}$ $\frac{f(Y_1)+\ldots+f(Y_N)}{N}$
$X$ $f(X)$
Könnten Sie einige wahre Beispiele für (reales) Gaußsches Verhalten aus der Mittelwertbildung anführen: Dies ist nicht sehr häufig! Das Gaußsche Verhalten wird in der Statistik häufig als erste grobe Annäherung verwendet, da die Berechnungen sehr gut nachvollziehbar sind. Da Physiker die harmonische Näherung verwenden, verwenden Statistiker die Gaußsche Näherung.

Alekk
quelle

Das Prinzip der maximalen Entropie ist auch ein weiterer Grund, warum die Gaußsche Verteilung verwendet wird. Was sind beispielsweise gute Gründe für die Verwendung von Gaußschen Fehlern im linearen Modell, mit Ausnahme der Traktierbarkeit?

Alekk

5

Vipul, du bist in deiner Frage nicht ganz präzise.

Dies wird normalerweise mit dem zentralen Grenzwertsatz gerechtfertigt, der besagt, dass Sie eine Normalverteilung erhalten, wenn Sie eine große Anzahl von iid-Zufallsvariablen mitteln.

Ich bin mir nicht ganz sicher, ob Sie dies sagen, aber denken Sie daran, dass die Regentropfen in Ihrem Beispiel keine Zufallsvariablen sind. Der Mittelwert, der durch Abtasten einer bestimmten Anzahl dieser Regentropfen berechnet wird, ist eine Zufallsvariable, und da die Mittelwerte unter Verwendung einer ausreichend großen Stichprobengröße berechnet werden, ist die Verteilung dieses Stichprobenmittelwerts normal.

Das Gesetz der großen Zahlen besagt, dass der Wert dieses Stichprobenmittelwerts gegen den Durchschnittswert der Bevölkerung konvergiert (stark oder schwach, abhängig von der Art der Konvergenz).

Die CLT sagt, dass der Stichprobenmittelwert, XM (n) genannt, eine Zufallsvariable, eine Verteilung hat, beispielsweise G (n). Wenn sich n der Unendlichkeit nähert, ist diese Verteilung die Normalverteilung. Bei CLT dreht sich alles um Konvergenz in der Verteilung , nicht um ein Grundkonzept.

Die Beobachtungen, die Sie zeichnen (Durchmesser, Fläche, Volumen), müssen überhaupt nicht normal sein. Sie werden es wahrscheinlich nicht sein, wenn Sie sie planen. Der Stichprobenmittelwert aus allen drei Beobachtungen ist jedoch normalverteilt. Und das Volumen ist weder der Würfel des Durchmessers noch die Fläche das Quadrat des Durchmessers. Das Quadrat der Summen wird nicht die Summe der Quadrate sein, es sei denn, Sie haben seltsamerweise Glück.

Baltimark
quelle

4

Einfach CLT (oder irgendein anderer Satz) besagt nicht, dass jede Größe im Universum normal verteilt ist. In der Tat verwenden Statistiker häufig monotone Transformationen, um die Normalität zu verbessern, sodass sie ihre bevorzugten Werkzeuge verwenden können.

quelle

4

Ich denke, Sie haben (die Hälfte) der Verwendung von Statistikern für die Normalverteilung missverstanden, aber ich mag Ihre Frage wirklich.

Ich denke nicht, dass es eine gute Idee ist, systematisch Normalität anzunehmen, und ich gebe zu, dass dies irgendwann (vielleicht weil die Normalverteilung nachvollziehbar, unimodal ist ...) ohne Überprüfung erfolgt. Daher ist Ihre Bemerkung zur monotonen Karte ausgezeichnet!

Die kraftvolle Verwendung von Normalität entsteht jedoch, wenn Sie sich neue Statistiken erstellen, wie sie beispielsweise bei Anwendung des empirischen Gegenstücks der Erwartung erscheinen: des empirischen Mittelwerts . Daher ist es das empirische Mittel und allgemeiner die Glättung, die Normalität überall erscheinen lässt ...

Robin Girard
quelle

2

Sowohl eine Zufallsvariable als auch viele Transformationen davon können ungefähr normal sein; In der Tat kann es sein, dass eine sehr große Vielfalt von Transformationen ziemlich normal aussieht, wenn die Varianz im Vergleich zum Mittelwert gering ist.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 Histogramme, die nahezu Normalität zeigen

( Klicken für größere Version )

Glen_b - Monica neu starten
quelle

Normalverteilung und monotone Transformationen

Antworten: