Kombination von zwei Kovarianzmatrizen

11

Ich berechne die Kovarianz einer Verteilung parallel und muss die verteilten Ergebnisse zu einem singulären Gaußschen kombinieren. Wie kombiniere ich die beiden?

Die lineare Interpolation zwischen den beiden funktioniert fast, wenn sie ähnlich verteilt und dimensioniert sind.

Wikipedia bietet unten ein Forum zur Kombination, aber es scheint nicht richtig zu sein. Zwei identisch verteilte Verteilungen sollten dieselbe Kovarianz haben, aber die Formel am Ende der Seite verdoppelt die Kovarianz.

Gibt es eine Möglichkeit, zwei Matrizen zu kombinieren?

Matt Kemp
quelle
3
Die Wikipedia-Formel beantwortet Ihre Frage, Matt: Möglicherweise haben Sie nicht bemerkt, dass es sich um eine Teilformel handelt, bei der Sie anschließend durch die Stichprobengröße dividieren müssen.
whuber
1
Ich habe das jetzt mit Ihrer Hilfe herausgefunden - wenn Sie dies in eine Antwort einfügen, werde ich es als beantwortet markieren.
Matt Kemp

Antworten:

12

Diese Frage taucht häufig in verschiedenen Formen auf. Was ihnen gemeinsam ist, ist

Wie kann ich momentbasierte Statistiken kombinieren, die aus nicht zusammenhängenden Teilmengen meiner Daten berechnet wurden?

Die einfachste Anwendung betrifft Daten, die in zwei Gruppen aufgeteilt wurden. Sie kennen die Gruppengrößen und die Gruppenmittelwerte. Was ist allein in Bezug auf diese vier Größen der Gesamtmittelwert der Daten?

Andere Anwendungen verallgemeinern Mittelwerte auf Varianzen, Standardabweichungen, Kovarianzmatrizen, Schiefen und multivariate Statistiken. und kann mehrere Untergruppen von Daten umfassen. Beachten Sie, dass viele dieser Größen etwas komplizierte Kombinationen von Momenten sind: Die Standardabweichung ist beispielsweise die Quadratwurzel einer quadratischen Kombination des ersten und zweiten Moments (Mittelwert und mittleres Quadrat).

Alle diese Fälle können leicht behandelt werden, indem die verschiedenen Momente auf Summen reduziert werden , da Summen offensichtlich und leicht kombiniert werden können: Sie werden addiert. Mathematisch kommt es darauf an: Sie haben einen Stapel von Daten, die in disjunkte Gruppen der Größen:. Nennen wir diete Gruppe. Per Definition ist derte Moment eines Datenstapelsder Durchschnitt vonj 1 , j 2 , ... , j g ( x 1 , x 2 , ... , x j 1 ; x j 1 + 1 , ... , x j 1 + j 2 ; x j 1 + j 2 + 1 ,X=(x1,x2,,xn)j1,j2,,jg(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)iX(i)=(xji+1,xji+2,,xji+1)ky1,,yjkth Kräfte,

μk(y)=(y1k+y2k++yjk)/j.

Offensichtlich ist die Summe der ten Potenzen. Unter Bezugnahme auf unsere vorherige Zerlegung von Daten in Untergruppen können wir daher eine Summe von Potenzen in Gruppen von Summen aufteilen und erhaltenjμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg1+1k+xj1++jg1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

Die Division durch zeigt das te Moment der gesamten Charge in Bezug auf das - te Moment ihrer Untergruppen.nkk

In der vorliegenden Anmeldung sind die Einträge in der Kovarianzmatrix natürlich Kovarianzen, die als multivariate zweite Momente und erste Momente ausgedrückt werden können. Der Hauptteil der Berechnung besteht darin, dass Sie sich bei jedem Schritt auf zwei bestimmte Komponenten Ihrer multivariaten Daten konzentriert haben; Nennen wir sie und . Die Zahlen, die Sie betrachten, sind im Formularxy

((x1,y1),(x2,y2),,(xn,yn)),

nach wie vor in Gruppen aufgeteilt. Für jede Gruppe kennen Sie die durchschnittliche Summe der Produkte des : Dies ist der multivariate Moment, . Um diese Gruppenwerte zu kombinieren, multiplizieren Sie sie mit den Gruppengrößen, addieren diese Ergebnisse und dividieren die Summe durch .x i y i ( 1 , 1 ) μ ( 1 , 1 ) ngxiyi(1,1)μ(1,1)n

Um diesen Ansatz anzuwenden, müssen Sie vorausdenken : Es ist nicht möglich, beispielsweise Kovarianzen zu kombinieren, wenn Sie nur die Kovarianzen und die Untergruppengrößen kennen. Sie müssen auch die Mittel der Untergruppen kennen (da die Mittel in wesentlicher Weise beteiligt sind in allen Kovarianzformeln) oder etwas algebraisch auf die Mittel reduzierbares. Möglicherweise müssen Sie auch auf Konstanten achten, die in den Formeln enthalten sind. Die Hauptfalle für Unvorsichtige besteht darin, eine "Stichproben-Kovarianz" (die eine Summe von Produkten geteilt durch ) mit einer "Populations-Kovarianz" (wobei die Division durch ) zu verwechseln . Dies führt nichts Neues ein; Sie müssen nur daran denken, die Stichproben-Kovarianz mit (oder die Gruppen-Kovarianz mit) zu multiplizierenn n - 1 j i - 1 n j in1nn1ji1 ), um die Summe statt durch (oder ) wiederzugewinnen .nji


Oh ja: über die vorliegende Frage. Die Formel in der Wikipedia - Artikel gegeben in Bezug auf die Gruppe Mittel (erste Momente) und die Gruppe gegeben Summen von Produkten. Wie oben beschrieben, werden diese kombiniert, indem sie addiert und dann die Ergebnisse mit einer Division angepasst werden, um die Kovarianzen zu erhalten. Die endgültige Division durch wird nicht angezeigt.n

whuber
quelle
Ich bin ein bisschen verwirrt über die Definition des k-ten Moments. Nehmen Sie Null-Mittelwertdaten an?
Reschu
@reschu Du scheinst an die zentralen Momente zu denken . Um sicherzustellen, dass dieser Beitrag richtig verstanden wird, habe ich definiert, was ich unter " moment" verstehe . Die Definition erscheint kurz vor der ersten Formel. kth
whuber
Möge schlecht! Ich habe 'zentrale' und 'rohe' Momente verwechselt. Danke für die Klarstellung!
Reschu
Ich denke, "um die Mittelwerte der Untergruppengrößen zu kennen" im vorletzten Absatz sollte stattdessen "um die Mittelwerte der Untergruppen zu kennen" lauten? (Ich zögere, dies selbst zu bearbeiten, da ich die Antwort nicht sehr sorgfältig studiert habe)
Juho Kokkala
@ Juho Du bist ganz richtig. Vielen Dank, dass Sie das bemerkt haben!
whuber