Kann mir jemand helfen, die Pearson-Korrelationsformel zu verstehen? die Probe = der Mittelwert der Produkte der Standardwerte der Variablen und .
Ich verstehe irgendwie, warum sie und standardisieren müssen , aber wie man die Produkte beider z-Scores versteht?
Diese Formel wird auch als "Produkt-Moment-Korrelationskoeffizient" bezeichnet. Aber was ist der Grund für die Produktwirkung? Ich bin mir nicht sicher, ob ich meine Frage klargestellt habe, aber ich möchte mich nur intuitiv an die Formel erinnern.
correlation
descriptive-statistics
pearson-r
Aaron Lu
quelle
quelle
Antworten:
In den Kommentaren wurden 15 Möglichkeiten zum Verständnis des Korrelationskoeffizienten vorgeschlagen:
Die 13 Möglichkeiten, die in dem Artikel von Rodgers und Nicewander (The American Statistician, Februar 1988) erörtert werden, sind:
Eine Funktion der Rohwerte und Mittelwerte,
Standardisierte Kovarianz,
Dabei ist Kovarianz der Stichprobe und s X und s Y die Standardabweichung der Stichprobe.sXY sX sY
Standardisierte Steigung der Regressionsgeraden,
Dabei sind und b X ⋅ Y die Steigungen der Regressionsgeraden.bY⋅X bX⋅Y
Das geometrische Mittel der beiden Regressionssteigungen,
Die Quadratwurzel des Verhältnisses zweier Varianzen (Anteil der berücksichtigten Variabilität),
Das mittlere Kreuzprodukt standardisierter Variablen,
Eine Funktion des Winkels zwischen den beiden standardisierten Regressionslinien. Die zwei Regressionslinien (von gegen X und X gegen Y ) sind symmetrisch um die Diagonale. Der Winkel zwischen den beiden Linien sei β . DannY X X Y β
Eine Funktion des Winkels zwischen den beiden variablen Vektoren,
Eine neu skalierte Varianz des Unterschieds zwischen standardisierten Scores. Lassen , die Differenz zwischen standardisiert werden X und Y Variablen für jede Beobachtung,zY−zX X Y
Geschätzt nach der "Ballon" -Regel,
In Bezug auf die bivariaten Ellipsen der Isokonzentration,
Eine Funktion der Teststatistik aus gestalteten Experimenten,
wheret is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1 ) and n is the combined total number of observations in the two treatment groups.
The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large valueXc of X . Then
(Most of this is verbatim, with very slight changes in some of the notation.)
Some other methods (perhaps original to this site) are
Via circles.r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.
By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--isr .
quelle