Wie würden Sie den Unterschied zwischen Korrelation und Kovarianz erklären?

109

Wenn Sie diese Frage beantworten, wie würden Sie jemandem die Kovarianz erklären, der nur den Mittelwert versteht? , die sich mit der Erklärung der Kovarianz für einen Laien befasst, hat in meinen Augen eine ähnliche Frage aufgeworfen.

Wie würde man einer Statistik den Unterschied zwischen Kovarianz und Korrelation erklären ? Es scheint, dass sich beide auf die Änderung einer Variablen beziehen, die mit einer anderen Variablen verknüpft ist.

Ähnlich wie bei der angesprochenen Frage wäre ein Mangel an Formeln vorzuziehen.

pmgjones
quelle

Antworten:

109

Das Problem bei Kovarianzen besteht darin, dass sie schwer zu vergleichen sind: Wenn Sie die Kovarianz eines Satzes von Höhen und Gewichten in Metern und Kilogramm berechnen, erhalten Sie eine andere Kovarianz als in anderen Einheiten ( Das ist schon ein Problem für Leute, die das Gleiche mit oder ohne das metrische System tun!), aber es wird auch schwer zu sagen sein, ob (z. B.) Größe und Gewicht "kovary more" sind als, sagen Sie die Länge Ihrer Zehen und Finger Ganz einfach, weil die Skala, nach der die Kovarianz berechnet wird, anders ist.

Die Lösung besteht darin, die Kovarianz zu "normalisieren": Sie dividieren die Kovarianz durch etwas, das die Verschiedenartigkeit und Skalierung in beiden Kovariaten darstellt, und erhalten einen Wert zwischen -1 und 1: die Korrelation. Unabhängig von der Einheit, in der sich Ihre ursprünglichen Variablen befanden, erhalten Sie immer das gleiche Ergebnis. Auf diese Weise können Sie bis zu einem gewissen Grad auch vergleichen, ob zwei Variablen mehr als zwei andere "korrelieren", indem Sie einfach ihre Korrelation vergleichen.

Hinweis: Das oben Gesagte setzt voraus, dass der Leser das Konzept der Kovarianz bereits versteht.

Nick Sabbe
quelle
2
+1 Wollten Sie im letzten Satz "Korrelation" anstelle von "Kovarianz" schreiben?
whuber
Sind Sie sicher, dass Sie Kovarianzen nicht mit verschiedenen Einheiten vergleichen können? Die Einheiten gehen durch Kovarianz multipliziert - Wenn die X in ist cm, und ein Y in s, dann . Und dann können Sie einfach das Ergebnis mit dem Einheitenumrechnungsfaktor multiplizieren. Versuchen Sie es in R:cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101
3
@ naught101 Ich vermute, dass, wenn ich Ihnen sagen würde, dass und sonst nichts ist, Sie keine Ahnung haben, ob X Y in hohem Maße vorhersagt oder nicht, während ich Ihnen Cor sagte ( X , Y ) = .9 Sie hätten etwas besser interpretierbares. Cov(X,Y.)=1010XY.Cor(X,Y.)=.9
Kerl
@guy: Das wären Kovarianzen ohne Einheiten: PI denke, das Wichtigste ist, dass man Kovarianzen aus zwei Datensätzen mit unterschiedlichen Varianzen nicht einfach vergleichen kann. Wenn Sie beispielsweise die Beziehung B = 2 * A und zwei Datensätze {A1, B1} und {A2, B2} haben, wobei A1 eine Varianz von 0,5 und A2 eine Varianz von 2 hat, dann ist die ist viel größer als c o v ( A 1 , B 1 ) , obwohl die Beziehung genau gleich ist. cOv(EIN2,B2)cOv(EIN1,B1)
Naught101
3
Also in einfachen Worten Korelation> Kovarianz
Karl Morrison
58

Die Anforderungen dieser Art von Fragen kommen mir etwas bizarr vor. Hier ist eine mathematische Begriff / Formel, über die ich jedoch in einem Kontext sprechen möchte, in dem mathematische Symbole völlig fehlen. Ich denke auch, es sollte festgestellt werden, dass die eigentliche Algebra, die zum Verstehen der Formeln notwendig ist, den meisten Menschen vor der Hochschulbildung beigebracht werden sollte (ein Verständnis der Matrixalgebra ist nicht erforderlich, nur eine einfache Algebra wird ausreichen).

Schauen wir uns also zunächst die Formel an und versuchen Sie, die einzelnen Komponenten in kleinen Schritten zu erklären, anstatt die Formel vollständig zu ignorieren und in einigen magischen und heuristischen Analogietypen darüber zu sprechen. Der Unterschied in Bezug auf Kovarianz und Korrelation sollte bei Betrachtung der Formeln deutlich werden. In Analogien und Heuristiken zu sprechen, würde meines Erachtens zwei relativ einfache Konzepte und deren Unterschiede in vielen Situationen verschleiern.

Beginnen wir also mit einer Formel für die Sample-Kovarianz (diese habe ich gerade genommen und aus Wikipedia übernommen);

1n-1ich=1n(Xich-X¯)(yich-y¯)

Definieren Sie explizit alle Elemente und Operationen in der Formel, um alle Benutzer auf den neuesten Stand zu bringen.

  • und y i sind jeweils Messungen von zwei seperate Attributen der gleichen BeobachtungXichyich
  • und ˉ y sind die Mittelwerte (oder Mittelwerte) der einzelnen AttributeX¯y¯
  • Für , sagen wir einfach, wir teilen das Endergebnis durchn-1.1n-1n-1
  • kann für manche ein fremdes Symbol sein, daher wäre es wahrscheinlich nützlich, diese Operation zu erklären. Es ist einfach die Summe aller i Beobachtungen trennen, und n die Gesamtzahl der Beobachtungen.ich=1nichn

An dieser Stelle möchte ich ein einfaches Beispiel vorstellen, um den Elementen und Operationen sozusagen ein Gesicht zu geben. Stellen wir uns zum Beispiel eine Tabelle zusammen, in der jede Zeile einer Beobachtung entspricht (und und y entsprechend beschriftet sind). Man würde diese Beispiele wahrscheinlich spezifischer machen (z. B. x steht für Alter und y für Gewicht), aber für unsere Diskussion hier sollte es keine Rolle spielen.XyXy

x y
---
2 5
4 8
9 3
5 6
0 8

Wenn Sie der Meinung sind, dass die Summenoperation in der Formel möglicherweise nicht vollständig verstanden wurde, können Sie sie an dieser Stelle in einem viel einfacheren Kontext erneut einführen. Sagen Sie einfach, dass dasselbe ist wie in diesem Beispiel;ich=1n(Xich)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

(Xich-X¯)(yich-y¯)X¯y¯(Xich-X¯)X

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

(Xich-X¯)(yich-y¯)(Xich-X¯)(yich-y¯)

Beachten Sie, was beim Multiplizieren passiert. Wenn zwei Beobachtungen beide einen großen Abstand über dem Mittelwert haben, hat die resultierende Beobachtung einen noch größeren positiven Wert (das gleiche gilt, wenn beide Beobachtungen einen großen Abstand unter dem Mittelwert haben, wenn zwei Negative multipliziert werden) gleich ein positives). Beachten Sie auch, dass, wenn eine Beobachtung hoch über dem Mittelwert liegt und die andere deutlich unter dem Mittelwert liegt, der resultierende Wert groß (in absoluten Zahlen) und negativ ist (als positives Mal entspricht ein negatives einer negativen Zahl). Schließlich ist zu beachten, dass die Multiplikation der beiden Werte zu einer kleinen Zahl führt, wenn ein Wert sehr nahe am Mittelwert für eine der beiden Beobachtungen liegt. Auch hier können wir diese Operation nur in einer Tabelle darstellen.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

n-1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

An diesem Punkt möchten Sie möglicherweise die Herkunft der 5 verdeutlichen. Dies sollte jedoch so einfach sein, dass Sie auf die Tabelle zurückgreifen und die Anzahl der Beobachtungen zählen (lassen Sie den Unterschied zwischen Stichprobe und Population zu einem anderen Zeitpunkt).

ρ

ρ=COv(X,y)Veinr(X)Veinr(y)

COv(X,X)=Veinr(X)). Und es gelten dieselben Konzepte, die Sie mit der Kovarianz eingeführt haben (dh, wenn eine Reihe viele Werte hat, die weit vom Mittelwert entfernt sind, hat sie eine hohe Varianz). Beachten Sie hier vielleicht, dass eine Reihe auch keine negative Varianz haben kann (was logischerweise aus der zuvor vorgestellten Mathematik folgen sollte).

Veinr(X)Veinr(y)Veinr(X)Veinr(y)

Ich verstehe unter Umständen, dass diese Behandlungsstufe nicht angemessen wäre. Der Senat benötigt die Zusammenfassung . In diesem Fall können Sie auf die einfachen Heuristiken zurückgreifen, die in anderen Beispielen verwendet wurden, aber Rom wurde nicht an einem Tag erbaut. Und an den Senat, der um die Zusammenfassung bittet: Wenn Sie so wenig Zeit haben, sollten Sie vielleicht einfach mein Wort dafür nehmen und auf die Formalitäten der Analogien und Stichpunkte verzichten.

Andy W
quelle
4
cov(X,Y.)=E[(X-E[X])(Y.-E[Y.])]
Xi'an
14
+1, das ist ganz gut. Ich wäre jedoch nicht so kritisch gegenüber konzeptuellen Einführungen. Ich habe mit genügend Mathematikangst gearbeitet, dass das Zeigen einer Formel sie wahrscheinlich verlieren wird. Ich erhalte sie in der Regel nach oben w / die Intuition 1. zu beschleunigen, und dann zu Fuß durch die Mathematik einfach und gründlich (viel wie Sie hier tun) hinterher . Auf diese Weise lernen sie nur, wie die Mathematik das darstellt, was sie bereits wissen, und wenn sie mental abbrechen, lernen sie immer noch die großen Ideen. Als Tangentialpunkt arbeite ich die Mathematik in Excel durch, was ich dafür sehr gut finde.
gung
2
NN-1(Xich-X¯)(yich-y¯)ρr , nicht zu den Varianzen, siehehier zb.
gung
Danke @gung, ich habe den Tippfehler in der ersten Formel geändert und dann für die Korrelation die Quadratwurzel der multiplizierten Varianzen genommen (anstatt die Standardabweichung zu definieren). Bei der Verwendung von Rho im Vergleich zu einem anderen Symbol fühle ich mich in keiner Weise zu stark. Wenn ich unterrichte und ein Lehrbuch hätte, würde ich mich wahrscheinlich nur an den Text anpassen wollen. Hoffentlich verursacht ein weiteres griechisches Symbol kein Chaos!
Andy W
1
Wenn ich Ihre Antwort 100 Mal positiv bewerten könnte, würde ich. Was für eine unglaublich klare Erklärung!
Julian A.
10

Veinr[X]Veinr[y]

Das heißt, die Korrelation ist einfach eine Darstellung der Kovarianz, daher muss das Ergebnis zwischen -1 (perfekt invers korreliert) und +1 (perfekt positiv korreliert) liegen, wobei anzumerken ist, dass ein Wert nahe Null bedeutet, dass zwei Variablen nicht korreliert sind.

Die Kovarianz ist unbegrenzt und hat im Vergleich zu anderen Kovarianzen keinen Zusammenhang. Durch Normalisieren / Anpassen / Standardisieren von Kovarianzen in eine Korrelation können Datensätze einfacher verglichen werden.

Wie Sie sich vorstellen können, gibt es verschiedene Möglichkeiten, wie eine Statistik (z. B. Kovarianz) normalisiert / standardisiert werden kann. Die mathematische Formel für die Beziehung zwischen Korrelation und Kovarianz spiegelt einfach die Konventionsstatistiker wider (nämlich die Anpassung entsprechend ihrer Standardabweichungen):

r=cOv(X,y)Veinr[X]Veinr[y]
D Dawg
quelle
5

Wenn Sie mit der Idee des Zentrierens und Standardisierens vertraut sind, bedeutet x-xbar, x auf seinen Mittelwert zu zentrieren. Gleiches gilt für y. Die Kovarianz zentriert also einfach die Daten. Die Korrelation zentriert jedoch nicht nur die Daten, sondern skaliert auch unter Verwendung der Standardabweichung (Standardisieren). Die Multiplikation und Summation ist das Skalarprodukt der beiden Vektoren und zeigt, wie parallel diese beiden Vektoren zueinander sind (die Projektion eines Vektors auf den anderen). Die Division von (n-1) oder die Ermittlung des erwarteten Werts ist für die Anzahl der Beobachtungen maßstabsgetreu. Gedanken?

user31180
quelle
3

Soweit ich es verstanden habe. Die Korrelation ist eine "normalisierte" Version der Kovarianz.

Karl Morrison
quelle
2
Wie viele Posts bestätigen , hat "normalisieren" viele verschiedene Bedeutungen. Welches verwenden Sie?
Whuber
-3

Die Korrelation wird zwischen -1 und +1 skaliert, abhängig davon, ob eine positive oder negative Korrelation vorliegt, und ist dimensionslos. Die Kovarianz reicht jedoch bei zwei unabhängigen Variablen von Null bis Var (X), wenn die beiden Datensätze gleich sind. Die Einheiten von COV (X, Y) sind die Einheiten von X mal die Einheiten von Y.

Nagaraj
quelle
6
Die Kovarianz kann negativ sein, ist also nicht auf 0 begrenzt. Es ist mir auch unklar, was Sie mit Ihrem letzten Satz meinen The units of COV(X,Y) are the units of X times the units of Y..
Andy W
@AndyW ist der Einheitenteil nicht aus der Definition ersichtlich? Cov(X,Y.)=E[(X-E[X])(Y.-E[Y.])]
1
@ naught101, Die Einheiten passieren? Mein erster Kommentar zu Nagaraj war, weitere Klarheit zu schaffen, da mehrdeutige Aussagen wie die zitierte, die ich behaupten würde, für niemanden hilfreich sind. Warum können wir die Kovarianz nicht als "die Einheiten von x multipliziert mit den Einheiten von y" interpretieren, weil das nicht so ist, wie es ist? Eine potenziell korrektere Aussage (für die Stichproben-Kovarianz) wäre der " Durchschnitt der Produkte der mittleren Abweichungen ". Fortsetzung ...
Andy W
1
Mittlere Abweichungen stimmen mit Sicherheit nicht mit den ursprünglichen Einheiten überein, und die resultierende Statistik für die Kovarianz hängt nicht nur vom Mittelwert und der Varianz der ursprünglichen Attribute ab. Die Kovarianz an und für sich sagt nichts aus, ohne die Varianz der ursprünglichen Attribute zu kennen.
Andy W