Mein Verständnis der Funktionsweise der Kovarianz ist, dass korrelierte Daten eine etwas hohe Kovarianz aufweisen sollten. Ich bin auf eine Situation gestoßen, in der meine Daten korreliert aussehen (wie im Streudiagramm gezeigt), die Kovarianz jedoch nahe Null liegt. Wie kann die Kovarianz der Daten Null sein, wenn sie korreliert sind?
import numpy as np
x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788,
0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681,
0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152,
0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536])
x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334,
0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528,
0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655,
0.03213286, 0.03827639, 0.02999955, 0.0371424 , 0.0279254 ])
print np.cov(x1, x2)
array([[ 3.95773132e-05, 2.59159589e-05],
[ 2.59159589e-05, 1.72006225e-05]])
python
descriptive-statistics
covariance
Kilojoule
quelle
quelle
Antworten:
Die Größe der Kovarianz hängt von der Größe der Daten ab und davon, wie nahe diese Datenpunkte um den Mittelwert dieser Daten verstreut sind. Es ist leicht zu erkennen, wenn Sie sich die Formel ansehen:
In Ihrem Fall zeigt die Abweichung von
x1
undx2
Daten auf den Mittelwert vonx1
undx2
ist:Wenn Sie nun diese beiden Vektoren miteinander multiplizieren, erhalten Sie offensichtlich ziemlich kleine Zahlen:
Das ist der Grund, warum die Größe der Kovarianz nicht viel über die Stärke des Wie
x1
und diex2
Ko-Variation aussagt. Durch Standardisieren (oder Normalisieren) der Kovarianz, dh Teilen durch das Produkt der Standardabweichung vonx1
undx2
(sehr ähnlich der Kovarianz, dh2.609127e-05
),quelle
Lassen Sie uns darüber sprechen, was aus einem kurzen Blick auf die Handlung und einigen Angemessenheitsprüfungen ersichtlich ist (dies sind die Dinge, die man selbstverständlich tun kann, wenn man Daten betrachtet, indem man einfach mit ein paar grundlegenden Fakten bewaffnet ist):
Folglich sind die beobachteten Werte der Abweichungen in Ihrer Ausgabe sinnvoll. sie sind beide weniger als das, aber mehr als ein Zehntel davon.
Der absolute Wert der Kovarianz darf dann nicht mehr als das geometrische Mittel der beiden Varianzen sein (andernfalls könnte die Korrelation 1 überschreiten). Der absolute Wert der Kovarianz sollte also nicht überschreiten14
Aus dieser sehr groben Analyse sieht nichts überraschend aus.
(Nicht so schlecht für eine schnelle Berechnung auf der Rückseite des Umschlags, beginnend mit Bereichen bis zu zwei signifikanten Zahlen!)
quelle