Wie verstehe ich die Korrelationskoeffizientenformel?

Kann mir jemand helfen, die Pearson-Korrelationsformel zu verstehen? die Probe $r$ = der Mittelwert der Produkte der Standardwerte der Variablen $X$ und $Y$ .

Ich verstehe irgendwie, warum sie $X$ und standardisieren müssen $Y$ , aber wie man die Produkte beider z-Scores versteht?

Diese Formel wird auch als "Produkt-Moment-Korrelationskoeffizient" bezeichnet. Aber was ist der Grund für die Produktwirkung? Ich bin mir nicht sicher, ob ich meine Frage klargestellt habe, aber ich möchte mich nur intuitiv an die Formel erinnern.

correlation descriptive-statistics pearson-r Aaron Lu
quelle

Vielleicht möchten Sie den Artikel "Dreizehn Möglichkeiten, den Korrelationskoeffizienten zu untersuchen" (Rodgers & Nicewander 1988) lesen. Wie der Titel andeutet, werden dreizehn verschiedene intuitive Ansichten des Korrelationskoeffizienten erörtert. Hoffentlich wird zumindest ein :) klicken

Halb passieren

13 Wege finden Sie hier

Dimitriy V. Masterov

Ein 14. Weg, um die Korrelation (in Form von Produkten der z-Scores) zu verstehen, besteht darin, die Kovarianz der standardisierten Variablen zu verstehen , wie unter stats.stackexchange.com/questions/18058/… dargestellt .

Whuber

... und ein 15. Weg verwendet die unter stats.stackexchange.com/a/46508/919 gezeigten Kreise : Eine Anpassung auf die kleinsten Quadrate minimiert die Gesamtfläche der Kreise (es gibt mindestens zwei Möglichkeiten, dies zu tun, wenn die Punkte zutreffen) nicht genau ausrichten) und der Korrelationskoeffizient ist dann ihre durchschnittliche Fläche (wenn beide Variablen standardisiert sind).

Whuber

Mögliches Duplikat von Was ist Kovarianz im Klartext?

kjetil b halvorsen

In den Kommentaren wurden 15 Möglichkeiten zum Verständnis des Korrelationskoeffizienten vorgeschlagen:

Die 13 Möglichkeiten, die in dem Artikel von Rodgers und Nicewander (The American Statistician, Februar 1988) erörtert werden, sind:

Eine Funktion der Rohwerte und Mittelwerte,

$r = \frac{\sum (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum {(X_{i} - \bar{X})}^{2} {(Y_{i} - \bar{Y})}^{2}}} .$ $r =\frac{\sum\left(X_i - \bar{X}\right)\left(Y_i - \bar{Y}\right)}{\sqrt{\sum\left(X_i-\bar{X}\right)^2\left(Y_i-\bar{Y}\right)^2}}.$
Standardisierte Kovarianz,

$r = s_{X Y} / (s_{X} s_{Y})$ $r = s_{XY}/(s_Xs_Y)$
Dabei ist Kovarianz der Stichprobe und und die Standardabweichung der Stichprobe. $s_{XY}$ $s_X$ $s_Y$
Standardisierte Steigung der Regressionsgeraden,

$r = b_{Y \cdot X} \frac{s_{X}}{s_{Y}} = b_{X \cdot Y} \frac{s_{Y}}{s_{X}},$ $r = b_{Y\cdot X}\frac{s_X}{s_Y} = b_{X\cdot Y}\frac{s_Y}{s_X},$
Dabei sind und die Steigungen der Regressionsgeraden. $b_{Y\cdot X}$ $b_{X \cdot Y}$
Das geometrische Mittel der beiden Regressionssteigungen,

$r = \pm \sqrt{b_{Y \cdot X} b_{X \cdot Y}} .$ $r = \pm \sqrt{b_{Y\cdot X}b_{X\cdot Y}}.$
Die Quadratwurzel des Verhältnisses zweier Varianzen (Anteil der berücksichtigten Variabilität),

$r = \sqrt{\frac{\sum {(Y_{i} - \hat{Y_{i}})}^{2}}{\sum {(Y_{i} - \bar{Y})}^{2}}} = \sqrt{\frac{S S_{R E G}}{S S_{T O T}}} = \frac{s_{\hat{Y}}}{s_{Y}} .$ $r = \sqrt{\frac{\sum\left(Y_i - \hat{Y_i}\right)^2}{\sum\left(Y_i-\bar{Y}\right)^2}} = \sqrt{\frac{SS_{REG}}{SS_{TOT}}} = \frac{s_\hat{Y}}{s_Y}.$
Das mittlere Kreuzprodukt standardisierter Variablen,

$r = \sum z_{X} z_{Y} / N .$ $r = \sum z_X z_Y / N.$
Eine Funktion des Winkels zwischen den beiden standardisierten Regressionslinien. Die zwei Regressionslinien (von gegen und gegen ) sind symmetrisch um die Diagonale. Der Winkel zwischen den beiden Linien sei . Dann $Y$ $X$ $X$ $Y$ $\beta$

$r = \sec (β) \pm \tan (β) .$ $r = \sec(\beta)\pm \tan(\beta).$
Eine Funktion des Winkels zwischen den beiden variablen Vektoren,

$r = \cos (α) .$ $r = \cos(\alpha).$
Eine neu skalierte Varianz des Unterschieds zwischen standardisierten Scores. Lassen , die Differenz zwischen standardisiert werden und Variablen für jede Beobachtung, $z_Y - z_X$ $X$ $Y$

$r = 1 - s_{(z_{Y} - z_{X})}^{2} / 2 = s_{(z_{Y} + z_{X})}^{2} / 2 - 1.$ $r = 1 - s^2_{(z_Y - z_X)} / 2 = s^2_{(z_Y+z_X)}/2 - 1.$
Geschätzt nach der "Ballon" -Regel,

$r \approx \sqrt{1 - (h / H)^{2}}$ $r \approx \sqrt{1 - (h/H)^2}$
$H$ $X-Y$ $h$ $X$
In Bezug auf die bivariaten Ellipsen der Isokonzentration,

$r = \frac{D^{2} - d^{2}}{D^{2} + d^{2}}$ $r = \frac{D^2 - d^2}{D^2 + d^2}$
$D$ $d$ $r$
Eine Funktion der Teststatistik aus gestalteten Experimenten,

$r = \frac{t}{\sqrt{t^{2} + n - 2}}$ $r = \frac{t}{\sqrt{t^2 + n-2}}$
where $t$ is the test statistic in a two-independent sample $t$ test for a designed experiment with two treatment conditions (coded as $X=0, 1$ ) and $n$ is the combined total number of observations in the two treatment groups.
The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value $X_c$ of $X$ . Then

$r = \frac{E (Y | X > X_{c})}{E (X | X > X_{c})} .$ $r = \frac{\mathbb{E}(Y\,|\,X\gt X_c)}{\mathbb{E}(X\,|\,X\gt X_c)}.$

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

Via circles. $r$ is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.
By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is $r$ .

whuber
quelle

Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.

whuber

Wie verstehe ich die Korrelationskoeffizientenformel?

Antworten: