Was ist der Unterschied zwischen der linearen Regression auf y mit x und x mit y?

97

Der Pearson-Korrelationskoeffizient von x und y ist der gleiche, unabhängig davon, ob Sie Pearson (x, y) oder Pearson (y, x) berechnen. Dies legt nahe, dass eine lineare Regression von y bei x oder x bei y gleich sein sollte, aber ich denke nicht, dass dies der Fall ist.

Kann jemand Aufschluss darüber geben, wann die Beziehung nicht symmetrisch ist und inwiefern sich dies auf den Pearson-Korrelationskoeffizienten bezieht (den ich immer als Zusammenfassung der Best-Fit-Linie betrachte)?

user9097
quelle
1
Jede Korrelationsmatrix wird symmetrisch sein , da . Ich ermutige Sie, die Mathematik zu erarbeiten, um zu sehen, dass dies tatsächlich wahr ist. Wenn Sie wissen, dass die Beziehung zwischen x und y (oder was auch immer die interessierenden Variablen sind) nicht a priori symmetrisch ist , können Sie sich andere Analysemethoden ansehen. cov(x,y)=cov(y,x)xy
Phillip Cloud

Antworten:

159

Der beste Weg, um darüber nachzudenken, besteht darin, sich ein Streudiagramm von Punkten vorzustellen, bei dem auf der vertikalen Achse und x auf der horizontalen Achse liegen. In diesem Rahmen sehen Sie eine Punktewolke, die vage kreisförmig oder zu einer Ellipse verlängert sein kann. Was Sie versuchen, in der Regression zu tun, ist, das zu finden, was man als die "Linie der besten Anpassung" bezeichnen könnte. Obwohl dies einfach zu sein scheint, müssen wir herausfinden, was wir mit "am besten" meinen, und das bedeutet, dass wir definieren müssen, was es wäre, wenn eine Linie gut oder eine Linie besser als eine andere usw. wäre Wir müssen eine Verlustfunktion festlegenyX. Eine Verlustfunktion gibt uns die Möglichkeit zu sagen, wie "schlecht" etwas ist, und wenn wir dies minimieren, machen wir unsere Linie so gut wie möglich oder finden die "beste" Linie.

Wenn wir eine Regressionsanalyse durchführen, finden wir traditionell Schätzungen der Steigung und des Abschnitts, um die Summe der quadratischen Fehler zu minimieren . Diese sind wie folgt definiert:

SSE=ich=1N(yich-(β^0+β^1Xich))2

In Bezug auf unser Streudiagramm bedeutet dies, dass wir die (Summe der quadratischen) vertikalen Abstände zwischen den beobachteten Datenpunkten und der Linie minimieren .

Bildbeschreibung hier eingeben

Andererseits ist es durchaus sinnvoll, auf y zu regressieren , aber in diesem Fall würden wir x auf die vertikale Achse setzen und so weiter. Wenn wir unser Diagramm unverändert lassen (mit x auf der horizontalen Achse), würde eine Regression von x auf y (ebenfalls unter Verwendung einer leicht angepassten Version der obigen Gleichung mit x und y vertauscht) bedeuten, dass wir die Summe der horizontalen Abstände minimieren würdenXyXXXyXyzwischen den beobachteten Datenpunkten und der Linie. Das hört sich sehr ähnlich an, ist aber nicht ganz dasselbe. (Um dies zu erkennen, müssen Sie es in beide Richtungen tun und dann einen Satz von Parameterschätzungen algebraisch in die Terme des anderen umwandeln. Beim Vergleich des ersten Modells mit der neu angeordneten Version des zweiten Modells wird es leicht erkennbar, dass dies der Fall ist nicht das gleiche.)

Bildbeschreibung hier eingeben

Beachten Sie, dass auf keine Weise dieselbe Linie erzeugt wird, die wir intuitiv zeichnen würden, wenn uns jemand ein Millimeterpapier mit darauf eingezeichneten Punkten übergibt. In diesem Fall ziehen wir eine Linie direkt durch die Mitte, aber wenn Sie den vertikalen Abstand minimieren, erhalten Sie eine Linie, die etwas flacher ist (dh mit einer flacheren Neigung), während Sie durch Minimieren des horizontalen Abstandes eine Linie erhalten, die etwas steiler ist .

Eine Korrelation ist symmetrisch; ist so korreliert mit y wie y mit x . Die Pearson-Produkt-Moment-Korrelation kann jedoch in einem Regressionskontext verstanden werden. Der Korrelationskoeffizient r ist die Steigung der Regressionsgeraden, wenn beide Variablen zuerst standardisiert wurden . Das heißt, Sie haben zuerst den Mittelwert von jeder Beobachtung abgezogen und dann die Differenzen durch die Standardabweichung dividiert. Die Datenpunktwolke wird nun auf den Ursprung zentriert, und die Steigung ist gleich, unabhängig davon, ob Sie y auf x oder x auf y zurückgeführt habenXyyXryXXy (Beachten Sie jedoch den Kommentar von @DilipSarwate weiter unten).

Bildbeschreibung hier eingeben

Warum ist das wichtig? Unter Verwendung unserer traditionellen Verlustfunktion sagen wir, dass sich der gesamte Fehler nur in einer der Variablen befindet (nämlich ). Das heißt, wir sagen, dass x fehlerfrei gemessen wird und die Menge von Werten darstellt, die uns wichtig sind, aber dass y einen Stichprobenfehler hatyXy. Das ist ganz anders als das Umgekehrte zu sagen. Dies war in einer interessanten historischen Episode von Bedeutung: In den späten 70er und frühen 80er Jahren wurde in den USA der Fall angeführt, dass Frauen am Arbeitsplatz diskriminiert wurden, und dies wurde durch Regressionsanalysen untermauert, aus denen hervorgeht, dass Frauen mit gleichem Hintergrund (z , Qualifikationen, Erfahrung usw.) wurden im Durchschnitt weniger bezahlt als Männer. Kritiker (oder einfach nur besonders gründliche Personen) argumentierten, dass Frauen, die gleichermaßen mit Männern bezahlt würden, in diesem Fall höher qualifiziert sein müssten. Als dies jedoch überprüft wurde, stellte sich heraus, dass die Ergebnisse zwar "signifikant" waren Auf die eine Weise beurteilt, waren sie nicht "signifikant", wenn sie auf die andere Weise überprüft wurden, was alle Beteiligten in einen Stich ließ. Sehen Sie hier für eine berühmte Zeitung, die versuchte, das Problem zu klären.


(Sehr viel später aktualisiert) Hier ist eine andere Möglichkeit, um darüber nachzudenken, die sich dem Thema über die Formeln nähert, anstatt visuell:

Die Formel für die Steigung einer einfachen Regressionsgeraden ergibt sich aus der übernommenen Verlustfunktion. Wenn Sie die Standardfunktion für den Verlust der kleinsten Quadrate (siehe oben) verwenden, können Sie die Formel für die Steigung ableiten, die Sie in jedem Intro-Lehrbuch sehen. Diese Formel kann in verschiedenen Formen dargestellt werden; eine davon nenne ich die "intuitive" Formel für die Steigung. Betrachten Sie diese Form sowohl für die Situation , in der Sie regredieren auf x , und wo Sie regredieren x auf y : y  auf  x & bgr; 1 = Cov ( x , y )yXXy Nun, ich hoffeesoffensichtlich, dass diese nicht die gleiche sein würdees sei dennVar(x)gleichVar(y). Wenn die Varianzensindgleich (zB weil Sie die Variablen standardisiert zuerst), dann sind auch die Standardabweichungen und damit die Abweichungen würden beide auch gleichSD(x)SD(y). In diesem Fallβ1würde Pearson gleichr, die durch die gleichen oder so istdas Prinzip der commutativity: Korrelieren 

β^1=Cov(X,y)Var(X)y auf X                              β^1=Cov(y,X)Var(y)X auf y
Var(X)Var(y)SD(X)SD(y)β^1r
r=Cov(X,y)SD(X)SD(y)korrelieren X mit y                           r=Cov(y,X)SD(y)SD(X)korrelieren y mit X
gung
quelle
2
+1 für die Erwähnung der Minimierung der Verlustfunktion. Alternativen zu den vertikalen oder horizontalen Abständen umfassen die Verwendung des senkrechten Abstands zur Linie oder zum Bereich des Rechtecks, die jeweils unterschiedliche Regressionslinien erzeugen.
Henry
7
yXXyXy
Dilip Sarwate
4
yXXXyX
1
Könnten Sie sagen, dass bei Korrelation der orthogonale Abstand zwischen den Punkten und der Linie minimiert wird? (Ich meine die Linie, die vom Punkt zur "Regressions" -Linie verläuft und orthogonal darauf steht).
vonjd
1
Pearsons Korrelation passt nicht ganz in eine Zeile, @vonjd. Es stellt sich heraus, dass dies der Steigung einer angepassten Linie der kleinsten Quadrate entspricht, als die Daten zuerst standardisiert wurden. Die erste Hauptkomponente, wenn es nur 2 Variablen gibt und die Daten zuerst standardisiert wurden, ist eine Art angepasste Linie, die die orthogonalen Abstände minimiert. HTH
gung
12

Ich werde die Antwort mit etwas RCode und Ausgabe veranschaulichen .

Zunächst konstruieren wir eine zufällige Normalverteilung ymit einem Mittelwert von 5 und einer SD von 1:

y <- rnorm(1000, mean=5, sd=1)

Als nächstes erstelle ich absichtlich eine zweite zufällige Normalverteilung x, die einfach das 5-fache des Wertes yfür jede ist y:

x <- y*5

Von Natur aus haben wir eine perfekte Korrelation von xund y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Wenn wir jedoch eine Regression durchführen, suchen wir nach einer Funktion, die sich darauf bezieht, xund ydaher hängen die Ergebnisse der Regressionskoeffizienten davon ab, welche wir als abhängige Variable und welche als unabhängige Variable verwenden. In diesem Fall passen wir keinen Achsenabschnitt an, weil wir xeine Funktion yohne zufällige Variation erstellt haben:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Die Regressionen sagen uns das y=0.2xund das x=5y, was natürlich gleichwertig ist. Der Korrelationskoeffizient zeigt uns einfach, dass es eine exakte Übereinstimmung in den Einheitenänderungsniveaus zwischen xund gibt y, so dass (zum Beispiel) eine Erhöhung um 1 Einheit yimmer eine Erhöhung um 0,2 Einheiten bewirkt x.

Michelle
quelle
6

Die Einsicht, dass wir dieselbe lineare Regression erhalten sollten, da Pearsons Korrelation gleich ist, ob wir eine Regression von x gegen y oder von y gegen x durchführen. Es ist nur geringfügig falsch und wir können es verwenden, um zu verstehen, was tatsächlich geschieht.

Dies ist die Gleichung für eine Linie, die wir aus unserer Regression gewinnen wollen

Bildbeschreibung hier eingeben

Die Gleichung für die Steigung dieser Linie wird durch Pearsons Korrelation bestimmt

Bildbeschreibung hier eingeben

Dies ist die Gleichung für Pearsons Korrelation. Es ist dasselbe, ob wir x gegen y oder y gegen x regressieren

Bildbeschreibung hier eingeben

Wenn wir jedoch auf unsere zweite Gleichung für die Steigung zurückblicken, sehen wir, dass die Pearson-Korrelation nicht der einzige Ausdruck in dieser Gleichung ist. Wenn wir y gegen x berechnen, haben wir auch die Stichprobenstandardabweichung von y geteilt durch die Stichprobenstandardabweichung von x. Wenn wir die Regression von x gegen y berechnen würden, müssten wir diese beiden Terme invertieren.

Ziemlich Nerdy
quelle
4

Bei Fragen wie diesen ist es einfach, sich mit den technischen Fragen zu beschäftigen. Daher möchte ich mich speziell auf die Frage im Titel des Threads konzentrieren, in der gefragt wird: Was ist der Unterschied zwischen der linearen Regression für y mit x und x mit y? ?

Betrachten Sie für einen Moment ein (vereinfachtes) ökonometrisches Modell aus der Humankapitaltheorie (der Link führt zu einem Artikel von Nobelpreisträger Gary Becker). Angenommen, wir geben ein Modell der folgenden Form an:

Lohn=b0+b1 Schuljahre+Error

Wenn wir nun die ökonometrische Gleichung umkehren (d. H. Y von x in x von y ändern), wird das Modell zu einem

Schuljahre=b0+b1 Lohn+Error

Ich bin sicher, Sie können sich weitere Beispiele wie dieses vorstellen (auch außerhalb der Wirtschaft), aber wie Sie sehen, kann sich die Interpretation des Modells erheblich ändern, wenn wir von y auf x auf y umstellen.

Also, um die Frage zu beantworten: Was ist der Unterschied zwischen der linearen Regression auf y mit x und x mit y? können wir sagen, dass sich die Interpretation der Regressionsgleichung ändert, wenn wir x auf y anstelle von y auf x zurückführen. Wir sollten diesen Punkt nicht übersehen, da ein Modell, das eine solide Interpretation hat, schnell zu einem Modell werden kann, das wenig oder keinen Sinn ergibt.

Graeme Walsh
quelle
3

Zu diesem Thema gibt es ein sehr interessantes Phänomen. Nach dem Austausch von x und y ändert sich zwar der Regressionskoeffizient, aber die t-Statistik / F-Statistik und das Signifikanzniveau für den Koeffizienten ändern sich nicht. Dies gilt auch für multiple Regressionen, bei denen wir y mit einer der unabhängigen Variablen austauschen.

Dies ist auf eine heikle Beziehung zwischen der F-Statistik und dem (Teil-) Korrelationskoeffizienten zurückzuführen. Diese Beziehung berührt wirklich den Kern der linearen Modelltheorie. Mehr Details zu dieser Schlussfolgerung finden Sie in meinem Notizbuch: Warum der Austausch von y und x keine Auswirkung auf p hat

Prekop
quelle
Möglicherweise finden Sie den folgenden Thread interessant / verwirrend: Vertauschen von X und Y in einer Regression, die einen Gruppierungsprädiktor enthält .
Gung
2
Der Artikel "Warum der Austausch von y und x keine Auswirkung auf p hat" ist nicht mehr hier. Wirst du es wieder hinzufügen?
JetLag,
1

Erweitere die ausgezeichnete Antwort von @ gung:

ryXXy

β^1yOnXβ^1XOny=Cov(X,y)Var(X)Cov(y,X)Var(y)=|Cov(X,y)|SD(X)SD(y)=|r|
r
r=sichGn(β^1yOnX)β^1yOnXβ^1XOny
r=sichGn(β^1XOny)β^1yOnXβ^1XOny

r

|12(β^1yOnX+β^1XOny)|β^1yOnXβ^1XOny=|r|

statmerkur
quelle
1

 Regression von y gegeben X

MindestbE(Y.-bX)2

Regression von X gegeben y

MindestbE(X-bY.)2

Mindestb1b2E(Y.-bX)2

Es ist auch wichtig zu beachten, dass zwei unterschiedlich aussehende Probleme die gleiche Lösung haben können.

SiXUlm
quelle
1
Obwohl dies richtig ist - und danke für diese Beobachtungen -, lassen Sie Ihre Leser hängen: Können Sie erklären, warum die Lösungen für diese beiden unterschiedlich aussehenden Probleme notwendigerweise unterschiedlich sind?
whuber
1
aussehen
Wie entspricht die letzte Zeile der mittleren Zeile? Wenn Sie 1 / b ^ 2 multiplizieren, erhalten Sie E (X - Y / b) ^ 2 nicht E (X - Yb) ^ 2
Austin Shin
bb: =1/b
+1: Sie haben Ihren Standpunkt jetzt klar zum Ausdruck gebracht!
Whuber
0

Nun, es ist wahr, dass für eine einfache bivariate Regression der lineare Korrelationskoeffizient und das R-Quadrat für beide Gleichungen gleich sind. Die Steigungen sind jedoch r Sy / Sx oder r Sx / Sy, die nicht gegenseitig sind, es sei denn, r = 1.

user175531
quelle
1
-1r2=1
-7

Die Grundidee der Regression kann "Ursache und Wirkung" oder "unabhängig und abhängig" sein. Die normale Praxis, unabhängige Variablen auf der X-Achse und abhängige Variablen auf der Y-Achse zu platzieren, wird durch Y = mX + c dargestellt. Ob die Steigung als m (X auf Y) oder (Y auf X) und die Regression als: (X auf Y) oder (Y auf X) bezeichnet werden soll. Es wird auf beide Arten gehandhabt, was nicht gut ist und geklärt werden muss. Modellierer verwenden häufig Streudiagramme, um zu beurteilen, ob simulierte Reihen mit beobachteten Reihen übereinstimmen. und die Verwendung von Regressionsgeraden ist unvermeidlich. Hier gibt es keinen Verursachungssatz. Unter Berücksichtigung dieser Notwendigkeit steht die stumme Frage, die der Faden stellt. Oder einfach ausgedrückt, erläutern Sie bitte, wie die normale Regressionsanalyse aufzurufen ist: X auf Y; oder Y auf X ?, geht über die verursachende Antwort hinaus. Es ist keine Antwort auf den Hauptthema; aber eine parallele Frage.

M. Ranjit Kumar
quelle
6
-1 Diese Antwort ist nicht nur inkohärent, sondern lässt auch die Schlüsselidee aus, die in der besten Antwort so gut erklärt wurde: Das Wahrscheinlichkeitsmodell der Variation in den Daten gibt vor, ob eine Regression sinnvoll ist, und bestimmt, welche Variable als abhängige Variable betrachtet werden kann.
Whuber
Dieser Befragte wiederholt möglicherweise eine Auslegung der zugegebenermaßen etwas unklaren Titelfrage in Bezug auf die übliche Kennzeichnung. Beschreibt man für ein Problem der Form y = mx + b typischerweise die Beziehung als "y ist auf x zurückgegangen" (ja) oder als "x ist auf y zurückgegangen" (nein)? Die Terminologiefrage wird unter stats.stackexchange.com/questions/207425/… beantwortet .
InColorado