Ich führe ein Experiment durch, bei dem ich (unabhängige) Samples parallel sammle, ich berechne die Varianz jeder Gruppe von Samples und jetzt möchte ich dann alle kombinieren, um die Gesamtvarianz aller Samples zu finden.
Es fällt mir schwer, eine Ableitung dafür zu finden, da ich mir der Terminologie nicht sicher bin. Ich betrachte es als eine Unterteilung eines Wohnmobils.
Ich möchte also aus , , ... und , wobei = [ X 1 , X 2 , ... , X n ] .V a r ( X 2 ) V a r ( X n ) X
EDIT: Die Partitionen haben nicht dieselbe Größe / Kardinalität, aber die Summe der Partitionsgrößen entspricht der Anzahl der Samples im gesamten Sampleset.
EDIT 2: Es gibt hier eine Formel für eine parallele Berechnung , die jedoch nur den Fall einer Partition in zwei Mengen abdeckt, nicht in Mengen.
Antworten:
Die Formel ist ziemlich einfach, wenn alle Teilstichproben dieselbe Stichprobengröße haben. Wenn Sie haben Unterproben der Größe k (für eine Gesamtzahl von g k Proben), dann hängt die Varianz der kombinierten Probe auf dem Mittelwert E j und die Varianz V j jede Teilprobe: V einen R ( X 1 , … , X g k ) = k - 1g k gk Ej Vj wobei durchVar(Ej)die Varianz der Probenmittel Mittel.
Eine Demonstration in R:
Wenn die Stichprobengrößen nicht gleich sind, ist die Formel nicht so schön.
EDIT: Formel für ungleiche Stichprobengrößen
Wieder eine Demonstration:
quelle
Dies ist einfach ein Add-On zur Antwort von aniko mit einer groben Skizze der Ableitung und etwas Python-Code, sodass alle Credits an aniko gehen.
Ableitung
LassenXj∈ X={X1,X2,…,Xg} be one of g parts of the data where the number of elements in each part is kj=|Xj| . We define the mean and the variance of each part to be
python code
The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.
It can be used as follows:
quelle