Wie verstehe ich die Korrelationskoeffizientenformel?

15

Kann mir jemand helfen, die Pearson-Korrelationsformel zu verstehen? die Probe r = der Mittelwert der Produkte der Standardwerte der Variablen X und Y .

Ich verstehe irgendwie, warum sie X und standardisieren müssen Y, aber wie man die Produkte beider z-Scores versteht?

Diese Formel wird auch als "Produkt-Moment-Korrelationskoeffizient" bezeichnet. Aber was ist der Grund für die Produktwirkung? Ich bin mir nicht sicher, ob ich meine Frage klargestellt habe, aber ich möchte mich nur intuitiv an die Formel erinnern.

Aaron Lu
quelle
11
Vielleicht möchten Sie den Artikel "Dreizehn Möglichkeiten, den Korrelationskoeffizienten zu untersuchen" (Rodgers & Nicewander 1988) lesen. Wie der Titel andeutet, werden dreizehn verschiedene intuitive Ansichten des Korrelationskoeffizienten erörtert. Hoffentlich wird zumindest ein :) klicken
Halb passieren
10
13 Wege finden Sie hier
Dimitriy V. Masterov
4
Ein 14. Weg, um die Korrelation (in Form von Produkten der z-Scores) zu verstehen, besteht darin, die Kovarianz der standardisierten Variablen zu verstehen , wie unter stats.stackexchange.com/questions/18058/… dargestellt .
Whuber
4
... und ein 15. Weg verwendet die unter stats.stackexchange.com/a/46508/919 gezeigten Kreise : Eine Anpassung auf die kleinsten Quadrate minimiert die Gesamtfläche der Kreise (es gibt mindestens zwei Möglichkeiten, dies zu tun, wenn die Punkte zutreffen) nicht genau ausrichten) und der Korrelationskoeffizient ist dann ihre durchschnittliche Fläche (wenn beide Variablen standardisiert sind).
Whuber
2
Mögliches Duplikat von Was ist Kovarianz im Klartext?
kjetil b halvorsen

Antworten:

14

In den Kommentaren wurden 15 Möglichkeiten zum Verständnis des Korrelationskoeffizienten vorgeschlagen:


Die 13 Möglichkeiten, die in dem Artikel von Rodgers und Nicewander (The American Statistician, Februar 1988) erörtert werden, sind:

  1. Eine Funktion der Rohwerte und Mittelwerte,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Standardisierte Kovarianz,

    r=sXY/(sXsY)

    Dabei ist Kovarianz der Stichprobe und s X und s Y die Standardabweichung der Stichprobe.sXYsXsY

  3. Standardisierte Steigung der Regressionsgeraden,

    r=bYXsXsY=bXYsYsX,

    Dabei sind und b X Y die Steigungen der Regressionsgeraden.bYXbXY

  4. Das geometrische Mittel der beiden Regressionssteigungen,

    r=±bYXbXY.
  5. Die Quadratwurzel des Verhältnisses zweier Varianzen (Anteil der berücksichtigten Variabilität),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Das mittlere Kreuzprodukt standardisierter Variablen,

    r=zXzY/N.
  7. Eine Funktion des Winkels zwischen den beiden standardisierten Regressionslinien. Die zwei Regressionslinien (von gegen X und X gegen Y ) sind symmetrisch um die Diagonale. Der Winkel zwischen den beiden Linien sei β . DannYXXYβ

    r=sec(β)±tan(β).
  8. Eine Funktion des Winkels zwischen den beiden variablen Vektoren,

    r=cos(α).
  9. Eine neu skalierte Varianz des Unterschieds zwischen standardisierten Scores. Lassen , die Differenz zwischen standardisiert werden X und Y Variablen für jede Beobachtung,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Geschätzt nach der "Ballon" -Regel,

    r1(h/H)2

    HXYhX

  11. In Bezug auf die bivariaten Ellipsen der Isokonzentration,

    r=D2d2D2+d2

    Ddr

  12. Eine Funktion der Teststatistik aus gestalteten Experimenten,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.

whuber
quelle
2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber