Was ist der Unterschied zwischen Korrelation und einfacher linearer Regression?

Antworten:

114

Was ist der Unterschied zwischen der Korrelation zwischen und und einer linearen Regression, die aus vorhersagt ?XYYX

Zunächst einige Gemeinsamkeiten :

  • Der standardisierte Regressionskoeffizient ist der gleiche wie der Pearson-Korrelationskoeffizient
  • Das Quadrat des Pearsonschen Korrelationskoeffizienten ist dasselbe wie das Quadrat in der einfachen linearen RegressionR2
  • Weder einfache lineare Regression noch Korrelation beantworten Fragen der Kausalität direkt. Dieser Punkt ist wichtig, weil ich Leute getroffen habe, die glauben, dass eine einfache Regression auf magische Weise eine Folgerung zulassen kann, dass verursacht .XY

Zweitens einige Unterschiede :

  • Die Regressionsgleichung (dh ) kann verwendet werden, um Vorhersagen für basierend auf Werten von zu treffena+bXYX
  • Während sich Korrelation typischerweise auf die lineare Beziehung bezieht, kann sie sich auf andere Formen der Abhängigkeit beziehen, wie beispielsweise polynomielle oder wirklich nichtlineare Beziehungen
  • Während sich die Korrelation normalerweise auf den Pearson-Korrelationskoeffizienten bezieht, gibt es andere Korrelationstypen, z. B. die von Spearman.
Jeromy Anglim
quelle
Hallo Jeromy, danke für deine Erklärung, aber ich habe hier noch eine Frage: Was ist, wenn ich keine Vorhersagen treffen muss und nur wissen will, wie nahe zwei Variablen sind und in welche Richtung / Stärke? Gibt es noch einen Unterschied zwischen diesen beiden Techniken?
yue86231
3
@ yue86231 Dann klingt es so, als wäre ein Maß für die Korrelation angemessener.
Jeromy Anglim
5
(+1) die Ähnlichkeit könnte es sinnvoll sein , dass die Standardtests der Hypothese hinzufügen „Korrelation = 0“ oder, äquivalent, „slope = 0“ (für die Regression in beliebiger Reihenfolge), wie beispielsweise durchgeführt von lmund cor.testin R, ergibt identische p-Werte.
Whuber
3
Ich stimme zu, dass der Vorschlag von @whuber hinzugefügt werden sollte, aber auf einer sehr grundlegenden Ebene sollte ich darauf hinweisen, dass das Vorzeichen der Regressionssteigung und der Korrelationskoeffizient gleich sind. Dies ist wahrscheinlich eines der ersten Dinge, die die meisten Menschen über die Beziehung zwischen Korrelation und einer "Linie der besten Anpassung" lernen (auch wenn sie es noch nicht "Regression" nennen), aber ich denke, es ist erwähnenswert. Zu den Unterschieden ist möglicherweise auch die Tatsache zu erwähnen, dass Sie die gleiche Antwortkorrelation X mit Y erhalten oder umgekehrt, dass sich die Regression von Y auf X von der von X auf Y unterscheidet.
Silverfish
36

Hier ist eine Antwort, die ich auf der graphpad.com-Website gepostet habe :

Korrelation und lineare Regression sind nicht dasselbe. Betrachten Sie diese Unterschiede:

  • Die Korrelation quantifiziert den Grad der Beziehung zwischen zwei Variablen. Die Korrelation passt nicht zu einer Linie durch die Daten.
  • Bei der Korrelation müssen Sie nicht über Ursache und Wirkung nachdenken. Sie quantifizieren einfach, wie gut zwei Variablen miteinander in Beziehung stehen. Bei der Regression müssen Sie über Ursache und Wirkung nachdenken, da die Regressionsgerade als beste Methode zur Vorhersage von Y aus X bestimmt wird.
  • Bei der Korrelation spielt es keine Rolle, welche der beiden Variablen Sie "X" und welche Sie "Y" nennen. Sie erhalten den gleichen Korrelationskoeffizienten, wenn Sie die beiden vertauschen. Bei der linearen Regression spielt die Entscheidung, welche Variable Sie "X" und welche "Y" nennen, eine große Rolle, da Sie eine andere Best-Fit-Linie erhalten, wenn Sie die beiden vertauschen. Die Linie, die Y aus X am besten vorhersagt, ist nicht die gleiche wie die Linie, die X aus Y vorhersagt (es sei denn, Sie haben perfekte Daten ohne Streuung).
  • Korrelation wird fast immer verwendet, wenn Sie beide Variablen messen. Es ist selten angebracht, wenn eine Variable etwas ist, das Sie experimentell manipulieren. Bei der linearen Regression ist die X-Variable normalerweise etwas, das Sie experimentell manipulieren (Zeit, Konzentration ...), und die Y-Variable ist etwas, das Sie messen.
Harvey Motulsky
quelle
13
"Der beste Weg, Y aus X vorherzusagen" hat nichts mit Ursache und Wirkung zu tun: X könnte die Ursache von Y sein oder umgekehrt. Man kann von Ursachen zu Wirkungen (Deduktion) oder von Wirkungen zu Ursachen (Abduktion) argumentieren.
Neil G
4
"Sie erhalten eine andere Best-Fit-Linie, wenn Sie die beiden vertauschen" ist ein wenig irreführend; Die standardisierten Steigungen sind in beiden Fällen gleich.
Xenocyon
26

Im Fall einer linearen Regression mit einem einzelnen Prädiktor hat die standardisierte Steigung den gleichen Wert wie der Korrelationskoeffizient. Der Vorteil der linearen Regression besteht darin, dass die Beziehung so beschrieben werden kann, dass Sie (basierend auf der Beziehung zwischen den beiden Variablen) die Punktzahl für die vorhergesagte Variable bei einem bestimmten Wert der Prädiktorvariablen vorhersagen können. Insbesondere gibt eine lineare Regression an, dass eine Korrelation nicht der Achsenabschnitt ist, der Wert für die vorhergesagte Variable, wenn der Prädiktor 0 ist.

Kurz gesagt - sie führen rechnerisch zu identischen Ergebnissen, aber es gibt weitere Elemente, die in der einfachen linearen Regression interpretiert werden können. Wenn Sie nur die Größe der Beziehung zwischen zwei Variablen charakterisieren möchten, verwenden Sie die Korrelation. Wenn Sie Ihre Ergebnisse anhand bestimmter Werte vorhersagen oder erklären möchten, möchten Sie wahrscheinlich eine Regression.

russellpierce
quelle
"Insbesondere eine Information, die eine lineare Regression liefert, besagt, dass eine Korrelation nicht der Achsenabschnitt ist" ... Sehr viel Unterschied!
Islam
Nun, rückblickend ist es nur richtig, dass die Regression einen Intercept liefert, da dies für viele Statistikpakete die Standardeinstellung ist. Man kann leicht eine Regression berechnen, ohne sie abzufangen.
Russellpierce
Ja, man könnte leicht eine Regression ohne einen Abschnitt berechnen, aber es wäre selten sinnvoll: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen
@kjetilbhalvorsen Außer in dem Fall, den ich beschrieben habe, als Sie eine standardisierte Neigung anbrachten. Der Intercept-Term in einer standardisierten Regressionsgleichung ist immer 0. Warum? Da sowohl die IV- als auch die DV-Werte auf Einheitswerte standardisiert wurden, ist der Achsenabschnitt definitiv 0. Genau die Art von Fall, die Sie in Ihrer Antwort beschreiben. (das Äquivalent zur Standardisierung der IV und der DV). Wenn sowohl IV als auch DV auf 0 standardisiert wurden, ist der
Achsenabschnitt
11

Die Korrelationsanalyse quantifiziert nur die Beziehung zwischen zwei Variablen, wobei ignoriert wird, welche abhängige Variable und welche unabhängig ist. Bevor Sie die Regression anwenden, müssen Sie die Auswirkung der Variablen kalibrieren, die Sie auf die andere Variable überprüfen möchten.


quelle
9

Alle bisher gegebenen Antworten liefern wichtige Erkenntnisse, aber es sollte nicht vergessen werden, dass Sie die Parameter der einen in die andere umwandeln können:

Regression:y=mx+b

Zusammenhang zwischen Regressionsparametern und Korrelation, Kovarianz, Varianz, Standardabweichung und Mittelwert: b=y -mx

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Sie können also beide ineinander transformieren, indem Sie ihre Parameter skalieren und verschieben.

Ein Beispiel in R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
quelle
3

Aus der Korrelation können wir nur einen Index erhalten, der die lineare Beziehung zwischen zwei Variablen beschreibt. In der Regression können wir die Beziehung zwischen mehr als zwei Variablen vorhersagen und damit identifizieren, welche Variablen x die Ergebnisvariable y vorhersagen kann .

Radia
quelle
3

Zitat Altman DG, "Praktische Statistik für die medizinische Forschung" Chapman & Hall, 1991, Seite 321: "Korrelation reduziert einen Datensatz auf eine einzelne Zahl, die keinen direkten Bezug zu den tatsächlichen Daten hat. Regression ist eine viel nützlichere Methode, mit Ergebnisse, die eindeutig mit der erhaltenen Messung zusammenhängen. Die Stärke der Beziehung ist eindeutig und die Unsicherheit kann anhand von Konfidenzintervallen oder Vorhersageintervallen deutlich gesehen werden.

Carlo Lazzaro
quelle
3
Obwohl ich mit Altman einverstanden bin - Regressionsmethoden sind in vielen Fällen geeigneter als Korrelationen -, ist dieses Zitat ein Strohmann-Argument. Bei der OLS-Regression entspricht die erzeugte Information der Information, die in eine Korrelationsberechnung eingeht (alle ersten und zweiten bivariaten Momente und ihre Standardfehler), und der Korrelationskoeffizient liefert die gleiche Information wie die Regressionssteigung. Die beiden Ansätze unterscheiden sich etwas in den zugrunde liegenden Datenmodellen, die sie annehmen, und in ihrer Interpretation, jedoch nicht in den von Altman behaupteten Methoden.
Whuber
1

Die Regressionsanalyse ist eine Technik zur Untersuchung der Wirkungsursache einer Beziehung zwischen zwei Variablen. Die Korrelationsanalyse ist eine Technik, mit der die Beziehung zwischen zwei Variablen quantifiziert werden kann.

Kanon Das Zinku
quelle
6
Willkommen zum Lebenslauf! Da es bereits so viele Antworten auf diese Frage gibt, möchten Sie sie sich ansehen und sehen, ob Ihre Frage etwas Neues hinzufügt? Wenn Sie mehr zu sagen haben, können Sie es bearbeiten, um dies zu tun.
Scortchi
0

Die Korrelation ist ein Index (nur eine Zahl) für die Stärke einer Beziehung. Regression ist eine Analyse (Schätzung von Parametern eines Modells und statistischer Test ihrer Signifikanz) der Angemessenheit einer bestimmten funktionalen Beziehung. Die Größe der Korrelation hängt davon ab, wie genau die Vorhersagen der Regression sein werden.

Jdub
quelle
1
Nein, ist es nicht. Die Korrelation gibt uns eine begrenzte Beziehung, aber sie bezieht sich nicht darauf, wie genau die Vorhersagen sein könnten. R2 gibt das.
SmallChess
-3

Korrelation ist ein Begriff in einer Statistik, der bestimmt, ob es eine Beziehung zwischen zwei und dann den Grad der Beziehung gibt. Der Bereich reicht von -1 bis +1. Während Regression bedeutet, zurück zum Durchschnitt zu gehen. Aus der Regression prognostizieren wir den Wert, indem wir eine Variable abhängig und die andere unabhängig halten. Es sollte jedoch klargestellt werden, welchen Wert die Variable haben soll, die wir vorhersagen möchten.

Shakir Sabir
quelle
6
Hallo, @shakir, und willkommen bei Cross Validated! Sie haben wahrscheinlich bemerkt, dass dies eine alte Frage ist (ab 2010) und dass bereits sieben (!) Antworten darauf gegeben wurden. Es wäre eine gute Idee, sicherzustellen, dass Ihre neue Antwort der Diskussion etwas Wichtiges hinzufügt, das vorher nicht behandelt wurde. Im Moment bin ich mir nicht sicher, ob dies der Fall ist.
Amöbe