Angenommen, es gibt Elemente, die in zwei Gruppen aufgeteilt sind ( und ). Die Varianz der ersten Gruppe ist und die Varianz der zweiten Gruppe ist . Es wird angenommen, dass die Elemente selbst unbekannt sind, aber ich kenne die und .
Gibt es eine Möglichkeit, die kombinierte Varianz zu berechnen ?
Die Varianz muss nicht unverzerrt sein, daher ist der Nenner und nicht .
Antworten:
Verwenden Sie die Definitionen des Mittelwerts
und Stichprobenvarianz
(das letzte Glied in den Klammern ist der unvoreingenommene Varianzschätzer standardmäßig berechnet häufig in statistischer Software) auf die Summe der Quadrate findet alle Daten . Ordnen wir die Indizes i so an, dass i = 1 , … , n Elemente der ersten Gruppe und i = n + 1 , … , n + m Elemente der zweiten Gruppe bezeichnen. Teilen Sie die Summe der Quadrate nach Gruppen auf und drücken Sie die beiden Teile anhand der Varianzen und Mittelwerte der Teilmengen der Daten erneut aus:xi i i=1,…,n i=n+1,…,n+m
Eine algebraische Lösung für in Bezug auf die anderen (bekannten) Größen ergibtσ2m+n
Natürlich kann unter Verwendung des gleichen Ansatzes auch als Gruppenmittel ausgedrückt werden.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)
Ein anonymer Teilnehmer weist darauf hin, dass die Lösung für σ 2 m + n ein gewichtetes Mittel von ist , wenn die Stichprobenmittelwerte gleich sind (so dass ) die Gruppenstichprobenvarianzen.μ1:n=μ1+n:m+n=μ1:m+n σ2m+n
quelle
sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)
wheren
,u
andrho
are equal-length vectors. E.g.n=c(10, 14, 9)
for three samples.In dieser Antwort verwende ich anstelle der in der Frage verwendeten Notation die Standardnotation für Stichprobenmittelwerte und Stichprobenabweichungen. Unter Verwendung der Standardnotation kann in O'Neill (2014) eine weitere Formel für die gepoolte Stichprobenvarianz von zwei Gruppen gefunden werden (Ergebnis 1):
This formula works directly with the underlying sample means and sample variances of the two subgroups, and does not require intermediate calculation of the pooled sample mean. (Proof of result in linked paper.)
quelle
Yes, given the mean, sample count, and variance or standard deviation of each of two or more groups of samples, you can exactly calculate the variance or standard deviation of the combined group.
This web page describes how to do it, and why it works; it also includes source code in Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html
BTW, contrary to the answer given above,
See for yourself, e.g., in R:
quelle
R
computes the unbiased estimate of the standard deviation rather than the standard deviation of the set of numbers. For instance,sd(c(-1,1))
returns1.414214
rather than1
. Your example needs to usesqrt(9/10)*sd(x)
in place ofsd(x)
. Interpreting "n <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)