Was ist die Varianz der gewichteten Mischung aus zwei Gaußschen?

38

ich habe zwei Normalverteilungen A und B mit den Bedeutungen und und den Varianzen und . Ich möchte eine gewichtete Mischung dieser beiden Verteilungen mit den Gewichten und wobei und . Ich weiß, dass der Mittelwert dieser Mischung .μAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Was wäre die Varianz?


Ein konkretes Beispiel wäre, wenn ich die Parameter für die Verteilung der männlichen und weiblichen Körpergröße kennen würde. Wenn ich einen Raum mit 60% männlichen Personen hätte, könnte ich die erwartete mittlere Körpergröße für den gesamten Raum berechnen, aber was ist mit der Varianz?

JoFrhwld
quelle
Zu der Terminologie: Die Mischung hat einfach einen Mittelwert und eine Varianz; Es hat keinen Sinn, diese als "erwartet" zu qualifizieren, es sei denn, Sie deuten möglicherweise an, dass und als Zufallsvariablen betrachtet werden sollten. pq
whuber
Ich weiß, dass die Mischung von zwei Gaußschen Verteilungen identifizierbar ist. Aber wenn die beiden Distributionen die gleichen Emans haben? Dh, ist die Mischung zweier Normalverteilungen mit gleichen Mitteln und unterschiedlichen Standardabweichungen erkennbar? Gibt es Papiere in diesem Zusammenhang? Vielen Dank im Voraus
1
Eine ähnliche Frage mit Antworten (auch zu den COVARIANCES) gibt es hier: math.stackexchange.com/q/195911/96547
hplieninger

Antworten:

62

Die Varianz ist der zweite Moment minus dem Quadrat des ersten Moments, daher reicht es aus, Momente von Gemischen zu berechnen.

Im Allgemeinen ist bei Verteilungen mit PDFs und konstanten (nicht zufälligen) Gewichten das PDF der Mischungfipi

f(x)=ipifi(x),

woraus folgt, sofort für jeden Augenblick dassk

μ(k)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

Ich habe für den Moment von und für den Moment von .μ(k)kthfμi(k)kthfi

Mit diesen Formeln kann die Varianz geschrieben werden

Var(f)=μ(2)(μ(1))2=ipiμi(2)(ipiμi(1))2.

Wenn die Varianzen von als , dann ist . Ermöglichen, dass die Varianz des Gemisches in Bezug auf die Varianzen und Mittel seiner Komponenten als geschrieben wirdfiσi2μi(2)=σi2+(μi(1))2f

Var(f)=ipi(σi2+(μi(1))2)(ipiμi(1))2=ipiσi2+ipi(μi(1))2(ipiμi(1))2.

In Worten ist dies die (gewichtete) durchschnittliche Varianz plus dem durchschnittlichen quadratischen Mittel minus dem Quadrat des durchschnittlichen Mittelwerts. Da Quadrieren eine konvexe Funktion ist, geht Jensens Ungleichung davon aus, dass das durchschnittliche quadratische Mittel nicht kleiner sein kann als das Quadrat des durchschnittlichen Mittels. Dies ermöglicht es uns, die Formel so zu verstehen, dass die Varianz der Mischung die Mischung der Varianzen zuzüglich eines nicht negativen Ausdrucks ist, der die (gewichtete) Streuung der Mittelwerte berücksichtigt.

In Ihrem Fall ist die Varianz

pAσA2+pBσB2+[pAμA2+pBμB2(pAμA+pBμB)2].

Wir können interpretieren, dass dies eine gewichtete Mischung der beiden Varianzen ist, , zuzüglich eines (notwendigerweise positiven) Korrekturterms, um die Verschiebungen von den einzelnen Mitteln relativ zum Gesamtmittelwert der Mischung zu berücksichtigen.pAσA2+pBσB2

Die Nützlichkeit dieser Varianz bei der Interpretation von Daten, wie sie in der Frage angegeben ist, ist zweifelhaft, da die Mischungsverteilung nicht normal sein wird (und erheblich davon abweichen kann, sofern sie Bimodalität aufweist).

whuber
quelle
8
Insbesondere unter Hinweis darauf, dass , vereinfacht sich Ihr letzter Ausdruck zu . pA+pB=1σ2=μ(2)μ2=pAσA2+pBσB2+pApB(μAμB)2
Ilmari Karonen
2
Oder, wenn wir eine probabilistische Erklärung für eine Mischungsdichte auferlegen (es gibt ein Ereignis der Wahrscheinlichkeit und die bedingte Dichte von bei ist während die bedingte Dichte von bei ist ), dann ist var die Summe des Mittelwerts der bedingten Varianz plus der Varianz des bedingten Mittelwerts. Letzteres ist ein diskretes RV mit den Werten mit den Wahrscheinlichkeiten undApAXAN(μA,σA2)XAc=BN(μB,σB2)(X)YμA,μBpqund dein Ausdruck in eckigen Klammern ist ohne weiteres . E[Y2](E[Y])2
Dilip Sarwate
1
@Neodyme Per Definition ist die Varianz der zweite Moment abzüglich des quadratischen Mittelwerts. Daher ist der zweite Moment die Varianz plus das mittlere Quadrat.
Whuber
1
@Neodyme benutze . E(X)=μ
Whuber
1
@Kiran Obwohl die Mischung in einigen Fällen normal aussieht , ist dies nicht der Fall. Eine Möglichkeit, dies zu erkennen, besteht darin, die überschüssige Kurtosis mit den hier angegebenen Formeln zu berechnen. Sie ist ungleich Null, es sei denn, alle Standardabweichungen sind gleich - in diesem Fall ist die "Mischung" nicht wirklich eine Mischung.
Whuber