Ich berechne die Kovarianz einer Verteilung parallel und muss die verteilten Ergebnisse zu einem singulären Gaußschen kombinieren. Wie kombiniere ich die beiden?
Die lineare Interpolation zwischen den beiden funktioniert fast, wenn sie ähnlich verteilt und dimensioniert sind.
Wikipedia bietet unten ein Forum zur Kombination, aber es scheint nicht richtig zu sein. Zwei identisch verteilte Verteilungen sollten dieselbe Kovarianz haben, aber die Formel am Ende der Seite verdoppelt die Kovarianz.
Gibt es eine Möglichkeit, zwei Matrizen zu kombinieren?
covariance
moments
Matt Kemp
quelle
quelle
Antworten:
Diese Frage taucht häufig in verschiedenen Formen auf. Was ihnen gemeinsam ist, ist
Die einfachste Anwendung betrifft Daten, die in zwei Gruppen aufgeteilt wurden. Sie kennen die Gruppengrößen und die Gruppenmittelwerte. Was ist allein in Bezug auf diese vier Größen der Gesamtmittelwert der Daten?
Andere Anwendungen verallgemeinern Mittelwerte auf Varianzen, Standardabweichungen, Kovarianzmatrizen, Schiefen und multivariate Statistiken. und kann mehrere Untergruppen von Daten umfassen. Beachten Sie, dass viele dieser Größen etwas komplizierte Kombinationen von Momenten sind: Die Standardabweichung ist beispielsweise die Quadratwurzel einer quadratischen Kombination des ersten und zweiten Moments (Mittelwert und mittleres Quadrat).
Alle diese Fälle können leicht behandelt werden, indem die verschiedenen Momente auf Summen reduziert werden , da Summen offensichtlich und leicht kombiniert werden können: Sie werden addiert. Mathematisch kommt es darauf an: Sie haben einen Stapel von Daten, die in disjunkte Gruppen der Größen:. Nennen wir diete Gruppe. Per Definition ist derte Moment eines Datenstapelsder Durchschnitt vonj 1 , j 2 , ... , j g ( x 1 , x 2 , ... , x j 1 ; x j 1 + 1 , ... , x j 1 + j 2 ; x j 1 + j 2 + 1 ,X=(x1,x2,…,xn) j1,j2,…,jg (x1,x2,…,xj1;xj1+1,…,xj1+j2;xj1+j2+1,…;…;…,xn) i X(i)=(xji+1,xji+2,…,xji+1) k y1,…,yj k th Kräfte,
Offensichtlich ist die Summe der ten Potenzen. Unter Bezugnahme auf unsere vorherige Zerlegung von Daten in Untergruppen können wir daher eine Summe von Potenzen in Gruppen von Summen aufteilen und erhaltenjμk(y) k g n
Die Division durch zeigt das te Moment der gesamten Charge in Bezug auf das - te Moment ihrer Untergruppen.n k k
In der vorliegenden Anmeldung sind die Einträge in der Kovarianzmatrix natürlich Kovarianzen, die als multivariate zweite Momente und erste Momente ausgedrückt werden können. Der Hauptteil der Berechnung besteht darin, dass Sie sich bei jedem Schritt auf zwei bestimmte Komponenten Ihrer multivariaten Daten konzentriert haben; Nennen wir sie und . Die Zahlen, die Sie betrachten, sind im Formularx y
nach wie vor in Gruppen aufgeteilt. Für jede Gruppe kennen Sie die durchschnittliche Summe der Produkte des : Dies ist der multivariate Moment, . Um diese Gruppenwerte zu kombinieren, multiplizieren Sie sie mit den Gruppengrößen, addieren diese Ergebnisse und dividieren die Summe durch .x i y i ( 1 , 1 ) μ ( 1 , 1 ) ng xiyi (1,1) μ(1,1) n
Um diesen Ansatz anzuwenden, müssen Sie vorausdenken : Es ist nicht möglich, beispielsweise Kovarianzen zu kombinieren, wenn Sie nur die Kovarianzen und die Untergruppengrößen kennen. Sie müssen auch die Mittel der Untergruppen kennen (da die Mittel in wesentlicher Weise beteiligt sind in allen Kovarianzformeln) oder etwas algebraisch auf die Mittel reduzierbares. Möglicherweise müssen Sie auch auf Konstanten achten, die in den Formeln enthalten sind. Die Hauptfalle für Unvorsichtige besteht darin, eine "Stichproben-Kovarianz" (die eine Summe von Produkten geteilt durch ) mit einer "Populations-Kovarianz" (wobei die Division durch ) zu verwechseln . Dies führt nichts Neues ein; Sie müssen nur daran denken, die Stichproben-Kovarianz mit (oder die Gruppen-Kovarianz mit) zu multiplizierenn n - 1 j i - 1 n j in−1 n n−1 ji−1 ), um die Summe statt durch (oder ) wiederzugewinnen .n ji
Oh ja: über die vorliegende Frage. Die Formel in der Wikipedia - Artikel gegeben in Bezug auf die Gruppe Mittel (erste Momente) und die Gruppe gegeben Summen von Produkten. Wie oben beschrieben, werden diese kombiniert, indem sie addiert und dann die Ergebnisse mit einer Division angepasst werden, um die Kovarianzen zu erhalten. Die endgültige Division durch wird nicht angezeigt.n
quelle