Bedeutet Zentrierung die Kovarianz?

11

Angenommen, ich habe zwei nicht unabhängige Zufallsvariablen und möchte die Kovarianz zwischen ihnen so weit wie möglich reduzieren, ohne zu viel "Signal" zu verlieren. Bedeutet dies, dass die Zentrierung hilft? Ich habe irgendwo gelesen, dass mittlere Zentrierung die Korrelation um einen signifikanten Faktor reduziert, daher denke ich, dass dies auch für die Kovarianz gelten sollte.

lvdp
quelle

Antworten:

30

Wenn und Zufallsvariablen sind und und Konstanten sind, dann Zentrierung ist der Sonderfall und , sodass die Zentrierung die Kovarianz nicht beeinflusst.XYab

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+bE[Y]b)]=E[(XE[X])(YE[Y])]=Cov(X,Y).
a=E[X]b=E[Y]


Da die Korrelation definiert ist als wir sehen, dass sodass insbesondere die Korrelation auch nicht durch die Zentrierung beeinflusst wird.

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y),
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)=Cov(X,Y)Var(X)Var(Y),


Das war die Bevölkerungsversion der Geschichte. Die Beispielversion ist dieselbe: Wenn wir als unsere Schätzung der Kovarianz zwischen und aus einer gepaarten Stichprobe , dann

Cov^(X,Y)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)
XY(X1,Y1),,(Xn,Yn)
Cov^(X+a,Y+b)=1ni=1n(Xi+a1nj=1n(Xj+a))(Yi+b1nj=1n(Yj+b))=1ni=1n(Xi+a1nj=1nXjnna)(Yi+b1nj=1nYjnnb)=1ni=1n(Xi1nj=1nXj)(Yi1nj=1nYj)=Cov^(X,Y)
for jeder und .ab

Artem Mavrin
quelle
danke für die ausführliche antwort. Bedeutet dies, dass für die Stichproben-Kovarianz auch die Stichprobengröße keinen Einfluss hat? dh die Reduzierung der Stichprobengröße verringert nicht die Stichproben-Kovarianz?
lvdp
3
@lvdp Das sollte wohl eine separate Frage sein.
Akkumulation
Eine reduzierte Stichprobengröße kann nur mit einer anderen Stichprobe geliefert werden. Eine andere Stichprobe könnte daher eine andere Kovarianz aufweisen. Da die Stichproben-Kovarianz jedoch als Durchschnitt definiert ist, wird die Stichprobengröße im Prinzip skaliert.
Nick Cox
5

Die Definition der Kovarianz von und ist . Der Ausdruck in dieser Formel ist die zentrierte Version von . Wir zentrieren also bereits, wenn wir die Kovarianz nehmen, und die Zentrierung ist ein idempotenter Operator. Sobald eine Variable zentriert ist, wird sie durch weiteres Anwenden des Zentrierungsprozesses nicht mehr geändert. Wenn die Formel nicht die zentrierten Versionen der Variablen verwendet, gibt es alle möglichen seltsamen Effekte, z. B. dass die Kovarianz zwischen Temperatur und einer anderen Variablen unterschiedlich ist, je nachdem, ob wir die Temperatur in Celsius oder Kelvin messen.XYE[(XE[X])(YE[Y])]XE[X]XX

Akkumulation
quelle
3

"irgendwo" ist eher eine unzuverlässige Quelle ...

Kovarianz / Korrelation werden mit expliziter Zentrierung definiert . Wenn Sie die Daten nicht zentrieren, berechnen Sie keine Kovarianz / Korrelation. (Genau: Pearson-Korrelation)

Der Hauptunterschied besteht darin, ob Sie basierend auf einem theoretischen Modell (z. B. sollte der erwartete Wert genau 0 sein) oder basierend auf den Daten (arithmetisches Mittel) zentrieren. Es ist leicht zu erkennen, dass das arithmetische Mittel eine geringere Kovarianz ergibt als jedes andere Zentrum.

Eine geringere Kovarianz bedeutet jedoch keine geringere Korrelation oder das Gegenteil. Angenommen, wir haben Daten X = (1,2) und Y = (2,1). Es ist leicht zu erkennen, dass dies bei arithmetischer Mittelwertzentrierung zu einer vollkommen negativen Korrelation führt. Wenn wir jedoch wissen, dass der Erzeugungsprozess im Durchschnitt 0 ergibt, sind die Daten tatsächlich positiv korreliert. In diesem Beispiel zentrieren wir uns also - aber mit dem theoretischen Erwartungswert 0.

Dies kann leicht auftreten. Stellen Sie sich vor, wir haben ein Sensorarray (11 x 11) mit den Zellen -5 bis +5. Anstatt das arithmetische Mittel zu verwenden, ist es sinnvoll, hier das "physikalische" Mittel unseres Sensorarrays zu verwenden, wenn nach der Korrelation von Sensorereignissen gesucht wird (wenn wir die Zellen 0 bis 10 aufzählen, würden wir 5 als festen Mittelwert verwenden). und wir würden genau die gleichen Ergebnisse erhalten, so dass die Auswahl der Indizierung aus der Analyse verschwindet (schön).

Hat aufgehört - Anony-Mousse
quelle
Danke @ Anony-Mousse, hängt die Stichproben-Kovarianz von der Stichprobengröße ab? Das heißt, eine kleinere Stichprobengröße ergibt eine geringere Kovarianz (vor dem Zentrieren).
lvdp
1
Kommt natürlich auf die Probe an. Im Durchschnitt - ich weiß es nicht. Ich würde erwarten, dass kleinere Stichproben meistens mehr Variabilität aufweisen, also möglicherweise häufiger extremere Werte. Das ist aber nur eine Intuition.
Hat aufgehört - Anony-Mousse