Wie unterscheidet sich der Korrelationskoeffizient von der Regressionssteigung?

69

Ich hätte erwartet, dass der Korrelationskoeffizient der gleiche ist wie eine Regressionssteigung (Beta), jedoch sind sie unterschiedlich, wenn man sie nur vergleicht. Wie unterscheiden sie sich - welche unterschiedlichen Informationen geben sie?

Luciano
quelle
3
Wenn sie normalisiert sind, sind sie gleich. aber denke daran, was passiert, wenn du Einheiten
wechselst
Ich denke, die Antworten mit der höchsten Punktzahl auf dieses Q (und vielleicht sogar mein A dazu, wo ich zeige, dass der Korrelationskoeffizient als der absolute Wert des geometrischen Mittels der beiden Steigungen angesehen werden kann, die wir erhalten, wenn wir y auf x und x auf zurückführen y, respektive) sind auch hier relevant
statmerkur

Antworten:

82

Angenommen, Sie sprechen von einem einfachen Regressionsmodell geschätzt nach kleinsten Quadraten. Aus Wikipedia wissen wir, dass Daher stimmen die beiden nur überein, wenn . Das heißt, sie fallen nur dann zusammen, wenn die beiden Variablen in gewissem Sinne den gleichen Maßstab haben. Der häufigste Weg, dies zu erreichen, ist die Standardisierung, wie durch @gung angegeben.

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

Die beiden geben Ihnen in gewisser Weise die gleichen Informationen - sie geben jeweils Auskunft über die Stärke der linearen Beziehung zwischen und . Sie geben Ihnen jedoch jeweils unterschiedliche Informationen (außer natürlich, wenn sie genau gleich sind):XiYi

  • Durch die Korrelation erhalten Sie eine begrenzte Messung, die unabhängig von der Skalierung der beiden Variablen interpretiert werden kann. Je näher die geschätzte Korrelation an , desto näher sind die beiden an einer perfekten linearen Beziehung . Die Regressionssteigung allein sagt Ihnen diese Information nicht.±1

  • Die Regressionssteigung ergibt eine nützliche Größe, die als geschätzte Änderung des erwarteten Werts von für einen gegebenen Wert von interpretiert wird . Insbesondere gibt die Änderung des erwarteten Werts von an, die einer Erhöhung von 1 Einheit entspricht . Diese Information kann nicht allein aus dem Korrelationskoeffizienten abgeleitet werden.YiXiβ^YiXi

Makro
quelle
Beachten Sie, dass die Regression von x gegen y nicht die Umkehrung der Regression von y gegen x ist!
Aginensky
23

Bei einer einfachen linearen Regression (dh nur 1 Kovariate) ist die Steigung dieselbe wie bei Pearson's wenn beide Variablen zuerst standardisiert wurden . (Für weitere Informationen, können Sie meine Antwort finden hier hilfreich.) Wenn Sie multiple Regression tun, kann dies komplizierter aufgrund usw.β1r

gung - Wiedereinsetzung von Monica
quelle
14

Der Korrelationskoeffizient misst die "Enge" der linearen Beziehung zwischen zwei Variablen und ist zwischen -1 und einschließlich 1 begrenzt. Korrelationen nahe Null stellen keine lineare Assoziation zwischen den Variablen dar, wohingegen Korrelationen nahe -1 oder +1 eine starke lineare Beziehung anzeigen. Je einfacher es für Sie ist, eine Linie der besten Anpassung durch ein Streudiagramm zu zeichnen, desto besser korrelieren sie.

Die Regressionssteigung misst die "Steilheit" der linearen Beziehung zwischen zwei Variablen und kann einen beliebigen Wert von bis annehmen . Steigungen nahe Null bedeuten, dass sich die Antwortvariable (Y) langsam ändert, wenn sich die Prädiktorvariable (X) ändert. Steigungen, die weiter von Null entfernt sind (entweder in negativer oder positiver Richtung), bewirken, dass sich die Reaktion schneller ändert, wenn sich der Prädiktor ändert. Wenn Sie eine Linie mit der besten Anpassung durch ein Streudiagramm zeichnen, ist Ihre Steigung umso weiter von Null entfernt, je steiler sie ist.+ +

Der Korrelationskoeffizient und die Regressionssteigung MÜSSEN also das gleiche Vorzeichen (+ oder -) haben, haben aber fast nie den gleichen Wert.

Der Einfachheit halber geht diese Antwort von einer einfachen linearen Regression aus.

Underminer
quelle
Sie weisen darauf hin, dass Beta in , aber gibt es keinen Einzelfall für Beta, der durch das Varianzverhältnis von x und y impliziert wird? inf,inf
Matifou
1

Der Pearson-Korrelationskoeffizient ist dimensionslos und wird unabhängig von der Dimension und dem Maßstab der Eingabevariablen zwischen -1 und 1 skaliert.

Wenn Sie (zum Beispiel) eine Masse in Gramm oder Kilogramm eingeben, hat dies keinen Einfluss auf den Wert von , wohingegen dies einen enormen Einfluss auf den Gradienten / die Steigung hat (der / die dimensioniert und entsprechend skaliert ist) würde keinen Unterschied für wenn die Skala in irgendeiner Weise angepasst wird, einschließlich der Verwendung von Pfund oder Tonnen.rr

Eine einfache Demonstration (Entschuldigung für die Verwendung von Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

zeigt, dass , obwohl die Steigung um den Faktor 10 erhöht wurde.r=0.969363

Ich muss zugeben, dass es ein guter Trick ist, bei dem zwischen -1 und 1 skaliert wird (einer jener Fälle, in denen der Zähler niemals einen Absolutwert haben kann, der größer als der Nenner ist).r

Wie @Macro oben ausführlich beschrieben hat, ist die Steigung , sodass Sie richtig verstehen, dass Pearsons mit der Steigung zusammenhängt, jedoch nur, wenn es entsprechend angepasst wird zu den Standardabweichungen (dadurch werden die Maße und Maßstäbe effektiv wiederhergestellt!).b=r(σyσx)r

Zuerst fand ich es seltsam, dass die Formel darauf schließen lässt, dass eine locker angepasste Linie (niedriges ) zu einem niedrigeren Gradienten führt. dann habe ich ein Beispiel gezeichnet und festgestellt, dass bei gegebener Steigung eine Variation der "Lockerheit" zu einer Abnahme von was jedoch durch eine proportionale Zunahme von ausgeglichen wird .rrσy

In der folgenden Tabelle sind vier Datensätze dargestellt:x,y

  1. die Ergebnisse von (so Gradient , , , ) ... beachten Sie, dassy=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. das gleiche, aber variiert durch eine Zufallszahl mit , , , aus der wir berechnen könnenr=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (also und , , )b=15r=1σx=0.58σy=8.66
  4. das gleiche wie (2), jedoch mit reduziertem Bereich also (und immer noch , , ) xb=14.70r=0.2447σx=0.58σy=34.69Korrelation und Gradient

Es ist zu sehen, dass die Varianz beeinflusst, ohne notwendigerweise zu beeinflussen , und dass Maßeinheiten die Skalierung und somit beeinflussen können, ohne zu beeinflussenrbbr

James
quelle