Wenn und Zufallsvariablen sind und und Konstanten sind, dann
Zentrierung ist der Sonderfall und , sodass die Zentrierung die Kovarianz nicht beeinflusst.XYabCov(X+a,Y+b)=E[(X+a−E[X+a])(Y+b−E[Y+b])]=E[(X+a−E[X]−E[a])(Y+b−E[Y]−E[b])]=E[(X+a−E[X]−a)(Y+b−E[Y]−b)]=E[(X−E[X])(Y−E[Y])]=Cov(X,Y).
a=−E[X]b=−E[Y]
Da die Korrelation definiert ist als
wir sehen, dass
sodass insbesondere die Korrelation auch nicht durch die Zentrierung beeinflusst wird.Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
Corr(X+a,Y+b)=Cov(X+a,Y+b)Var(X+a)Var(Y+b)−−−−−−−−−−−−−−−−−−√=Cov(X,Y)Var(X)Var(Y)−−−−−−−−−−−−√,
Das war die Bevölkerungsversion der Geschichte. Die Beispielversion ist dieselbe: Wenn wir
als unsere Schätzung der Kovarianz zwischen und aus einer gepaarten Stichprobe , dann
Covˆ(X,Y)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)
XY(X1,Y1),…,(Xn,Yn)Covˆ(X+a,Y+b)=1n∑i=1n(Xi+a−1n∑j=1n(Xj+a))(Yi+b−1n∑j=1n(Yj+b))=1n∑i=1n(Xi+a−1n∑j=1nXj−nna)(Yi+b−1n∑j=1nYj−nnb)=1n∑i=1n(Xi−1n∑j=1nXj)(Yi−1n∑j=1nYj)=Covˆ(X,Y)
for jeder und .ab
Die Definition der Kovarianz von und ist . Der Ausdruck in dieser Formel ist die zentrierte Version von . Wir zentrieren also bereits, wenn wir die Kovarianz nehmen, und die Zentrierung ist ein idempotenter Operator. Sobald eine Variable zentriert ist, wird sie durch weiteres Anwenden des Zentrierungsprozesses nicht mehr geändert. Wenn die Formel nicht die zentrierten Versionen der Variablen verwendet, gibt es alle möglichen seltsamen Effekte, z. B. dass die Kovarianz zwischen Temperatur und einer anderen Variablen unterschiedlich ist, je nachdem, ob wir die Temperatur in Celsius oder Kelvin messen.X Y E[(X−E[X])(Y−E[Y])] X−E[X] X X
quelle
"irgendwo" ist eher eine unzuverlässige Quelle ...
Kovarianz / Korrelation werden mit expliziter Zentrierung definiert . Wenn Sie die Daten nicht zentrieren, berechnen Sie keine Kovarianz / Korrelation. (Genau: Pearson-Korrelation)
Der Hauptunterschied besteht darin, ob Sie basierend auf einem theoretischen Modell (z. B. sollte der erwartete Wert genau 0 sein) oder basierend auf den Daten (arithmetisches Mittel) zentrieren. Es ist leicht zu erkennen, dass das arithmetische Mittel eine geringere Kovarianz ergibt als jedes andere Zentrum.
Eine geringere Kovarianz bedeutet jedoch keine geringere Korrelation oder das Gegenteil. Angenommen, wir haben Daten X = (1,2) und Y = (2,1). Es ist leicht zu erkennen, dass dies bei arithmetischer Mittelwertzentrierung zu einer vollkommen negativen Korrelation führt. Wenn wir jedoch wissen, dass der Erzeugungsprozess im Durchschnitt 0 ergibt, sind die Daten tatsächlich positiv korreliert. In diesem Beispiel zentrieren wir uns also - aber mit dem theoretischen Erwartungswert 0.
Dies kann leicht auftreten. Stellen Sie sich vor, wir haben ein Sensorarray (11 x 11) mit den Zellen -5 bis +5. Anstatt das arithmetische Mittel zu verwenden, ist es sinnvoll, hier das "physikalische" Mittel unseres Sensorarrays zu verwenden, wenn nach der Korrelation von Sensorereignissen gesucht wird (wenn wir die Zellen 0 bis 10 aufzählen, würden wir 5 als festen Mittelwert verwenden). und wir würden genau die gleichen Ergebnisse erhalten, so dass die Auswahl der Indizierung aus der Analyse verschwindet (schön).
quelle