Das Problem bei Kovarianzen besteht darin, dass sie schwer zu vergleichen sind: Wenn Sie die Kovarianz eines Satzes von Höhen und Gewichten in Metern und Kilogramm berechnen, erhalten Sie eine andere Kovarianz als in anderen Einheiten ( Das ist schon ein Problem für Leute, die das Gleiche mit oder ohne das metrische System tun!), aber es wird auch schwer zu sagen sein, ob (z. B.) Größe und Gewicht "kovary more" sind als, sagen Sie die Länge Ihrer Zehen und Finger Ganz einfach, weil die Skala, nach der die Kovarianz berechnet wird, anders ist.
Die Lösung besteht darin, die Kovarianz zu "normalisieren": Sie dividieren die Kovarianz durch etwas, das die Verschiedenartigkeit und Skalierung in beiden Kovariaten darstellt, und erhalten einen Wert zwischen -1 und 1: die Korrelation. Unabhängig von der Einheit, in der sich Ihre ursprünglichen Variablen befanden, erhalten Sie immer das gleiche Ergebnis. Auf diese Weise können Sie bis zu einem gewissen Grad auch vergleichen, ob zwei Variablen mehr als zwei andere "korrelieren", indem Sie einfach ihre Korrelation vergleichen.
Hinweis: Das oben Gesagte setzt voraus, dass der Leser das Konzept der Kovarianz bereits versteht.
cm
, und ein Y ins
, dann . Und dann können Sie einfach das Ergebnis mit dem Einheitenumrechnungsfaktor multiplizieren. Versuchen Sie es in R:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Die Anforderungen dieser Art von Fragen kommen mir etwas bizarr vor. Hier ist eine mathematische Begriff / Formel, über die ich jedoch in einem Kontext sprechen möchte, in dem mathematische Symbole völlig fehlen. Ich denke auch, es sollte festgestellt werden, dass die eigentliche Algebra, die zum Verstehen der Formeln notwendig ist, den meisten Menschen vor der Hochschulbildung beigebracht werden sollte (ein Verständnis der Matrixalgebra ist nicht erforderlich, nur eine einfache Algebra wird ausreichen).
Schauen wir uns also zunächst die Formel an und versuchen Sie, die einzelnen Komponenten in kleinen Schritten zu erklären, anstatt die Formel vollständig zu ignorieren und in einigen magischen und heuristischen Analogietypen darüber zu sprechen. Der Unterschied in Bezug auf Kovarianz und Korrelation sollte bei Betrachtung der Formeln deutlich werden. In Analogien und Heuristiken zu sprechen, würde meines Erachtens zwei relativ einfache Konzepte und deren Unterschiede in vielen Situationen verschleiern.
Beginnen wir also mit einer Formel für die Sample-Kovarianz (diese habe ich gerade genommen und aus Wikipedia übernommen);
Definieren Sie explizit alle Elemente und Operationen in der Formel, um alle Benutzer auf den neuesten Stand zu bringen.
An dieser Stelle möchte ich ein einfaches Beispiel vorstellen, um den Elementen und Operationen sozusagen ein Gesicht zu geben. Stellen wir uns zum Beispiel eine Tabelle zusammen, in der jede Zeile einer Beobachtung entspricht (und und y entsprechend beschriftet sind). Man würde diese Beispiele wahrscheinlich spezifischer machen (z. B. x steht für Alter und y für Gewicht), aber für unsere Diskussion hier sollte es keine Rolle spielen.X y X y
Wenn Sie der Meinung sind, dass die Summenoperation in der Formel möglicherweise nicht vollständig verstanden wurde, können Sie sie an dieser Stelle in einem viel einfacheren Kontext erneut einführen. Sagen Sie einfach, dass dasselbe ist wie in diesem Beispiel;∑ni = 1( xich)
Beachten Sie, was beim Multiplizieren passiert. Wenn zwei Beobachtungen beide einen großen Abstand über dem Mittelwert haben, hat die resultierende Beobachtung einen noch größeren positiven Wert (das gleiche gilt, wenn beide Beobachtungen einen großen Abstand unter dem Mittelwert haben, wenn zwei Negative multipliziert werden) gleich ein positives). Beachten Sie auch, dass, wenn eine Beobachtung hoch über dem Mittelwert liegt und die andere deutlich unter dem Mittelwert liegt, der resultierende Wert groß (in absoluten Zahlen) und negativ ist (als positives Mal entspricht ein negatives einer negativen Zahl). Schließlich ist zu beachten, dass die Multiplikation der beiden Werte zu einer kleinen Zahl führt, wenn ein Wert sehr nahe am Mittelwert für eine der beiden Beobachtungen liegt. Auch hier können wir diese Operation nur in einer Tabelle darstellen.
An diesem Punkt möchten Sie möglicherweise die Herkunft der 5 verdeutlichen. Dies sollte jedoch so einfach sein, dass Sie auf die Tabelle zurückgreifen und die Anzahl der Beobachtungen zählen (lassen Sie den Unterschied zwischen Stichprobe und Population zu einem anderen Zeitpunkt).
Ich verstehe unter Umständen, dass diese Behandlungsstufe nicht angemessen wäre. Der Senat benötigt die Zusammenfassung . In diesem Fall können Sie auf die einfachen Heuristiken zurückgreifen, die in anderen Beispielen verwendet wurden, aber Rom wurde nicht an einem Tag erbaut. Und an den Senat, der um die Zusammenfassung bittet: Wenn Sie so wenig Zeit haben, sollten Sie vielleicht einfach mein Wort dafür nehmen und auf die Formalitäten der Analogien und Stichpunkte verzichten.
quelle
Das heißt, die Korrelation ist einfach eine Darstellung der Kovarianz, daher muss das Ergebnis zwischen -1 (perfekt invers korreliert) und +1 (perfekt positiv korreliert) liegen, wobei anzumerken ist, dass ein Wert nahe Null bedeutet, dass zwei Variablen nicht korreliert sind.
Die Kovarianz ist unbegrenzt und hat im Vergleich zu anderen Kovarianzen keinen Zusammenhang. Durch Normalisieren / Anpassen / Standardisieren von Kovarianzen in eine Korrelation können Datensätze einfacher verglichen werden.
Wie Sie sich vorstellen können, gibt es verschiedene Möglichkeiten, wie eine Statistik (z. B. Kovarianz) normalisiert / standardisiert werden kann. Die mathematische Formel für die Beziehung zwischen Korrelation und Kovarianz spiegelt einfach die Konventionsstatistiker wider (nämlich die Anpassung entsprechend ihrer Standardabweichungen):
quelle
Wenn Sie mit der Idee des Zentrierens und Standardisierens vertraut sind, bedeutet x-xbar, x auf seinen Mittelwert zu zentrieren. Gleiches gilt für y. Die Kovarianz zentriert also einfach die Daten. Die Korrelation zentriert jedoch nicht nur die Daten, sondern skaliert auch unter Verwendung der Standardabweichung (Standardisieren). Die Multiplikation und Summation ist das Skalarprodukt der beiden Vektoren und zeigt, wie parallel diese beiden Vektoren zueinander sind (die Projektion eines Vektors auf den anderen). Die Division von (n-1) oder die Ermittlung des erwarteten Werts ist für die Anzahl der Beobachtungen maßstabsgetreu. Gedanken?
quelle
Soweit ich es verstanden habe. Die Korrelation ist eine "normalisierte" Version der Kovarianz.
quelle
Die Korrelation wird zwischen -1 und +1 skaliert, abhängig davon, ob eine positive oder negative Korrelation vorliegt, und ist dimensionslos. Die Kovarianz reicht jedoch bei zwei unabhängigen Variablen von Null bis Var (X), wenn die beiden Datensätze gleich sind. Die Einheiten von COV (X, Y) sind die Einheiten von X mal die Einheiten von Y.
quelle
The units of COV(X,Y) are the units of X times the units of Y.
.