Ist es möglich, die kombinierte Standardabweichung zu finden?

32

Angenommen, ich habe 2 Sätze:

Set A : Anzahl der Elemente , ,n=10μ=2.4σ=0.8

Set B : Anzahl der Elemente , ,n=5μ=2σ=1.2

Ich kann den kombinierten Mittelwert ( ) leicht finden, aber wie soll ich die kombinierte Standardabweichung finden?μ

kype
quelle

Antworten:

30

Wenn Sie also nur zwei dieser Samples zu einem zusammenfassen möchten, haben Sie:

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

Dabei sind und Stichprobenmittel und und Stichprobenstandardabweichungen. ˉ y 2s1s2y¯1y¯2s1s2

Um sie zu addieren, haben Sie:

s=1n1+n2Σi=1n1+n2(ziy¯)2

Das ist nicht so einfach, da sich der neue Mittelwert von y¯ von y¯1 und y¯2 :

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

Die endgültige Formel lautet:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

Für die üblicherweise verwendete Bessel-korrigierte (" Nenner") Version der Standardabweichung sind die Ergebnisse für die Mittelwerte wie zuvor, jedochn1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Weitere Informationen finden Sie hier: http://en.wikipedia.org/wiki/Standard_deviation

Sashkello
quelle
1
Wenn das OP die Bessel-korrigierte ( Nenner für die Varianz) Version der Standardabweichung der Stichprobe verwendet (wie fast jeder, der hier fragt, dies tun wird), gibt diese Antwort nicht ganz das, wonach er sucht. n1
Glen_b
In diesem Fall erledigt dieser Abschnitt den Trick. (Bearbeiten, um auf die alte Wikipedia-Version zu verlinken, da diese von der neuen Version entfernt wurde)
Glen_b
@ Glen_b Guter Fang. Können Sie dies in die Antwort einfügen, um sie dann nützlicher zu machen?
Sashkello
Ich ging zu Wikipedia, um den Beweis zu finden, aber leider ist diese Formel nicht mehr da. Möchtest du Wikipedia ausarbeiten (den Beweis) oder verbessern? :)
Rauni Lillemets
8

Dies erstreckt sich offensichtlich auf Gruppen:K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1
Ravi Varadhan
quelle
7
Dies ist für unsere Verhältnisse etwas kurz. Könnten Sie etwas mehr darüber sagen, wie dies abgeleitet wird und warum dies die richtige Antwort ist?
Sycorax sagt Reinstate Monica
1

Ich hatte das gleiche Problem: Wenn ich die Standardabweichung, die Mittelwerte und die Größen mehrerer Teilmengen mit leerem Schnittpunkt habe, berechne ich die Standardabweichung der Vereinigung dieser Teilmengen.

Ich mag die Antwort von sashkello und Glen_b ♦ , aber ich wollte einen Beweis dafür finden. Ich habe es so gemacht, und ich lasse es hier, falls es jemandem hilft.


So ist es das Ziel , das zu sehen in der Tat:

s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

Schritt für Schritt:

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

Now the trick is to realize that we can reorder the sums: since each

2y¯j=1n1xjn1
term appears n1 times, we can re-write the numerator as
i=1n1(xi2+y¯22y¯xi),

and hence, continuing with the equality chain:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

This been said, there is probably a simpler way to do this.

The formula can be extended to k subsets as stated before. The proof would be induction on the number of sets. The base case is already proven, and for the induction step you should apply a similar equality chain to the latter.

iipr
quelle
I don't see how the question is clear. Are the two data sets assumed to come from the same distribution? Does the OP have the actual observations available or just the sample estimates of mean and standard deviation?
Michael R. Chernick
Yes they are assumed to come from the same distribution. Observations are not available, just the mean and standard deviation of the subsets.
iipr
Then why are using a formula that involves the individual observations?
Michael R. Chernick
Maybe my answer is not clear. I am simply posting a mathematical proof of the above formula that allows to compute s from the standard deviations, means and sizes of two subsets. In the formula there is no reference to the individual observations. In the proof there is, but its just a proof, and from my point of view, correct.
iipr