Warum ist eine Mischung zweier normalverteilter Variablen nur bimodal, wenn sich ihre Mittelwerte um mindestens das Zweifache der gemeinsamen Standardabweichung unterscheiden?

28

Unter Mischung von zwei Normalverteilungen:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Eine Mischung aus zwei Normalverteilungen hat fünf Parameter zu schätzen: die zwei Mittelwerte, die zwei Varianzen und den Mischungsparameter. Eine Mischung aus zwei Normalverteilungen mit gleichen Standardabweichungen ist nur dann bimodal, wenn sich ihre Mittelwerte um mindestens das Doppelte der gemeinsamen Standardabweichung unterscheiden . "

Ich suche eine Herleitung oder eine intuitive Erklärung, warum dies wahr ist. Ich glaube, es kann in Form eines Zwei-Stichproben-Tests erklärt werden:

μ1μ2σp

Dabei ist die gepoolte Standardabweichung.σp

M Waz
quelle
1
Die Intuition ist, dass, wenn die Mittel zu nahe sind, es zu viel Überlappung in der Masse der 2 Dichten geben wird, so dass der Unterschied in den Mitteln nicht gesehen wird, weil der Unterschied einfach mit der Masse der beiden zusammenkommt Dichten. Wenn die beiden Mittelwerte unterschiedlich genug sind, überlappen sich die Massen der beiden Dichten nicht so stark, und der Unterschied in den Mitteln ist erkennbar. Aber ich würde gerne einen mathematischen Beweis dafür sehen. Es ist eine interessante Aussage. Ich habe es noch nie gesehen.
mlofton
2
Formal, mehr für eine 50:50 Mischung von zwei Normalverteilungen mit derselben SD wenn Sie die Dichte schreiben f ( x ) = 0,5 g 1 ( x ) + 0,5 g 2 ( x ) in voller Form die Parameter zeigen, Sie wird sehen, dass seine zweite Ableitung das Vorzeichen am Mittelpunkt zwischen den beiden Mitteln ändert, wenn der Abstand zwischen den Mitteln von unter 2 σ nach oben zunimmt . σ,f(x)=0.5g1(x)+0.5g2(x)2σ
BruceET
1
Siehe "Rayleigh-Kriterium", en.wikipedia.org/wiki/Angular_resolution#Explanation
Carl Witthoft

Antworten:

53

Diese Abbildung aus dem in diesem Wiki-Artikel verlinkten Artikel bietet eine schöne Illustration: Bildbeschreibung hier eingeben

Der Beweis, den sie liefern, basiert auf der Tatsache, dass Normalverteilungen innerhalb einer SD ihres Mittelwerts konkav sind (die SD ist der Wendepunkt des normalen PDF, wo sie von konkav zu konvex geht). Wenn Sie also zwei normale PDFs (zu gleichen Anteilen) addieren, ist die Summe-PDF (dh die Mischung) in dem Bereich zwischen den beiden Mitteln und damit konkav, solange sich ihre Mittelwerte um weniger als zwei SDs unterscheiden Das globale Maximum muss genau zwischen den beiden Mitteln liegen.

Referenz: Schilling, MF, Watkins, AE & Watkins, W. (2002). Ist die menschliche Körpergröße bimodal? The American Statistician, 56 (3), 223–229. doi: 10.1198 / 00031300265

Ruben van Bergen
quelle
11
+1 Dies ist ein schönes, einprägsames Argument.
Whuber
2
Die Bildunterschrift liefert auch eine schöne Illustration der 'fl'-Ligatur, die in' Flexion 'falsch gerendert wird:
P
2
@Axeman: Danke, dass Sie diesen Verweis hinzugefügt haben - da dies etwas in die Luft gejagt hat, hatte ich vor, ihn selbst hinzuzufügen, da ich ihre Argumentation wirklich nur wiederhole und das nicht allzu sehr würdigen möchte.
Ruben van Bergen
14

Dies ist ein Fall, in dem Bilder täuschen können, da dieses Ergebnis ein spezielles Merkmal normaler Mischungen ist: Ein Analogon gilt nicht unbedingt für andere Mischungen, selbst wenn die Komponenten symmetrische unimodale Verteilungen sind! Beispielsweise ist eine gleiche Mischung von zwei Student-t-Verteilungen, die durch etwas weniger als das Doppelte ihrer gemeinsamen Standardabweichung getrennt sind, bimodal. Um einen echten Einblick zu erhalten, müssen wir einige Berechnungen anstellen oder spezielle Eigenschaften von Normalverteilungen berücksichtigen.


Wählen Maßeinheiten (durch Rezentrierung und Neuskalierung nach Bedarf) an dem mittels der Teilverteilungen zu platzieren ±μ, μ0, und ihre gemeinsame Varianz Einheit zu machen. Sei p, 0<p<1, die Menge der Komponente mit dem größeren Mittelwert in der Mischung. Dies ermöglicht es uns, die Gemischdichte in voller Allgemeinheit als auszudrücken

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Weil beide Komponentendichten dort zunehmen, wo x<μ und dort abnehmenx>μ, treten die einzig möglichen Moden beiμxμ. Finden Sie sie, indem Sief in Bezug aufx differenzierenund auf Null setzen. Entfernen Sie alle positiven Koeffizienten, die wir erhalten

0=e2xμp(xμ)+(1p)(x+μ).

Durch Ausführen ähnlicher Operationen mit der zweiten Ableitung von f und Ersetzen von e2xμ durch den durch die vorstehende Gleichung bestimmten Wert wird das Vorzeichen der zweiten Ableitung an jedem kritischen Punkt als Vorzeichen von angegeben

f(x;μ,p)(1+x2μ2)xμ.

Da der Nenner negativ ist, wenn μ<x<μ, das Vorzeichen von f das von (1μ2+x2).μ1,μ1

2μ,

Eine Mischung von Normalverteilungen ist immer dann unimodal, wenn die Mittelwerte nicht mehr als das Doppelte der gemeinsamen Standardabweichung voneinander entfernt sind.

Das entspricht logischerweise der Aussage in der Frage.

whuber
quelle
12

Kommentar von oben aus Gründen der Kontinuität hier eingefügt:

"[F] odermal, für eine 50: 50-Mischung von zwei Normalverteilungen mit der gleichen SD σ, wenn Sie die Dichte f ( x ) = 0,5 g 1 ( x ) + schreiben

f(x)=0.5g1(x)+0.5g2(x)

Kommentar fortgesetzt:

σ=1.3σ,2σ,σ,

enter image description here

R-Code für die Figur:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
quelle
1
Alle Antworten waren großartig. Vielen Dank.
mlofton
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Gute Argumente. Tatsächlich war das, was ich mit der abgekürzten Sprache "flach" meinte, die 2. Ableitung Null genau in der Mitte.
BruceET