Der Pearson-Korrelationskoeffizient von x und y ist der gleiche, unabhängig davon, ob Sie Pearson (x, y) oder Pearson (y, x) berechnen. Dies legt nahe, dass eine lineare Regression von y bei x oder x bei y gleich sein sollte, aber ich denke nicht, dass dies der Fall ist.
Kann jemand Aufschluss darüber geben, wann die Beziehung nicht symmetrisch ist und inwiefern sich dies auf den Pearson-Korrelationskoeffizienten bezieht (den ich immer als Zusammenfassung der Best-Fit-Linie betrachte)?
regression
correlation
linear-model
pearson-r
user9097
quelle
quelle
Antworten:
Der beste Weg, um darüber nachzudenken, besteht darin, sich ein Streudiagramm von Punkten vorzustellen, bei dem auf der vertikalen Achse und x auf der horizontalen Achse liegen. In diesem Rahmen sehen Sie eine Punktewolke, die vage kreisförmig oder zu einer Ellipse verlängert sein kann. Was Sie versuchen, in der Regression zu tun, ist, das zu finden, was man als die "Linie der besten Anpassung" bezeichnen könnte. Obwohl dies einfach zu sein scheint, müssen wir herausfinden, was wir mit "am besten" meinen, und das bedeutet, dass wir definieren müssen, was es wäre, wenn eine Linie gut oder eine Linie besser als eine andere usw. wäre Wir müssen eine Verlustfunktion festlegeny x . Eine Verlustfunktion gibt uns die Möglichkeit zu sagen, wie "schlecht" etwas ist, und wenn wir dies minimieren, machen wir unsere Linie so gut wie möglich oder finden die "beste" Linie.
Wenn wir eine Regressionsanalyse durchführen, finden wir traditionell Schätzungen der Steigung und des Abschnitts, um die Summe der quadratischen Fehler zu minimieren . Diese sind wie folgt definiert:
In Bezug auf unser Streudiagramm bedeutet dies, dass wir die (Summe der quadratischen) vertikalen Abstände zwischen den beobachteten Datenpunkten und der Linie minimieren .
Andererseits ist es durchaus sinnvoll, auf y zu regressieren , aber in diesem Fall würden wir x auf die vertikale Achse setzen und so weiter. Wenn wir unser Diagramm unverändert lassen (mit x auf der horizontalen Achse), würde eine Regression von x auf y (ebenfalls unter Verwendung einer leicht angepassten Version der obigen Gleichung mit x und y vertauscht) bedeuten, dass wir die Summe der horizontalen Abstände minimieren würdenx y x x x y x y zwischen den beobachteten Datenpunkten und der Linie. Das hört sich sehr ähnlich an, ist aber nicht ganz dasselbe. (Um dies zu erkennen, müssen Sie es in beide Richtungen tun und dann einen Satz von Parameterschätzungen algebraisch in die Terme des anderen umwandeln. Beim Vergleich des ersten Modells mit der neu angeordneten Version des zweiten Modells wird es leicht erkennbar, dass dies der Fall ist nicht das gleiche.)
Beachten Sie, dass auf keine Weise dieselbe Linie erzeugt wird, die wir intuitiv zeichnen würden, wenn uns jemand ein Millimeterpapier mit darauf eingezeichneten Punkten übergibt. In diesem Fall ziehen wir eine Linie direkt durch die Mitte, aber wenn Sie den vertikalen Abstand minimieren, erhalten Sie eine Linie, die etwas flacher ist (dh mit einer flacheren Neigung), während Sie durch Minimieren des horizontalen Abstandes eine Linie erhalten, die etwas steiler ist .
Eine Korrelation ist symmetrisch; ist so korreliert mit y wie y mit x . Die Pearson-Produkt-Moment-Korrelation kann jedoch in einem Regressionskontext verstanden werden. Der Korrelationskoeffizient r ist die Steigung der Regressionsgeraden, wenn beide Variablen zuerst standardisiert wurden . Das heißt, Sie haben zuerst den Mittelwert von jeder Beobachtung abgezogen und dann die Differenzen durch die Standardabweichung dividiert. Die Datenpunktwolke wird nun auf den Ursprung zentriert, und die Steigung ist gleich, unabhängig davon, ob Sie y auf x oder x auf y zurückgeführt habenX y y X r y X X y (Beachten Sie jedoch den Kommentar von @DilipSarwate weiter unten).
Warum ist das wichtig? Unter Verwendung unserer traditionellen Verlustfunktion sagen wir, dass sich der gesamte Fehler nur in einer der Variablen befindet (nämlich ). Das heißt, wir sagen, dass x fehlerfrei gemessen wird und die Menge von Werten darstellt, die uns wichtig sind, aber dass y einen Stichprobenfehler haty X y . Das ist ganz anders als das Umgekehrte zu sagen. Dies war in einer interessanten historischen Episode von Bedeutung: In den späten 70er und frühen 80er Jahren wurde in den USA der Fall angeführt, dass Frauen am Arbeitsplatz diskriminiert wurden, und dies wurde durch Regressionsanalysen untermauert, aus denen hervorgeht, dass Frauen mit gleichem Hintergrund (z , Qualifikationen, Erfahrung usw.) wurden im Durchschnitt weniger bezahlt als Männer. Kritiker (oder einfach nur besonders gründliche Personen) argumentierten, dass Frauen, die gleichermaßen mit Männern bezahlt würden, in diesem Fall höher qualifiziert sein müssten. Als dies jedoch überprüft wurde, stellte sich heraus, dass die Ergebnisse zwar "signifikant" waren Auf die eine Weise beurteilt, waren sie nicht "signifikant", wenn sie auf die andere Weise überprüft wurden, was alle Beteiligten in einen Stich ließ. Sehen Sie hier für eine berühmte Zeitung, die versuchte, das Problem zu klären.
(Sehr viel später aktualisiert) Hier ist eine andere Möglichkeit, um darüber nachzudenken, die sich dem Thema über die Formeln nähert, anstatt visuell:
Die Formel für die Steigung einer einfachen Regressionsgeraden ergibt sich aus der übernommenen Verlustfunktion. Wenn Sie die Standardfunktion für den Verlust der kleinsten Quadrate (siehe oben) verwenden, können Sie die Formel für die Steigung ableiten, die Sie in jedem Intro-Lehrbuch sehen. Diese Formel kann in verschiedenen Formen dargestellt werden; eine davon nenne ich die "intuitive" Formel für die Steigung. Betrachten Sie diese Form sowohl für die Situation , in der Sie regredieren auf x , und wo Sie regredieren x auf y : y auf x ⏞ & bgr; 1 = Cov ( x , y )y X X y
Nun, ich hoffeesoffensichtlich, dass diese nicht die gleiche sein würdees sei dennVar(x)gleichVar(y). Wenn die Varianzensindgleich (zB weil Sie die Variablen standardisiert zuerst), dann sind auch die Standardabweichungen und damit die Abweichungen würden beide auch gleichSD(x)SD(y). In diesem Fallβ1würde Pearson gleichr, die durch die gleichen oder so istdas Prinzip der commutativity:
Korrelieren
quelle
Ich werde die Antwort mit etwas
R
Code und Ausgabe veranschaulichen .Zunächst konstruieren wir eine zufällige Normalverteilung
y
mit einem Mittelwert von 5 und einer SD von 1:Als nächstes erstelle ich absichtlich eine zweite zufällige Normalverteilung
x
, die einfach das 5-fache des Wertesy
für jede isty
:Von Natur aus haben wir eine perfekte Korrelation von
x
undy
:Wenn wir jedoch eine Regression durchführen, suchen wir nach einer Funktion, die sich darauf bezieht,
x
undy
daher hängen die Ergebnisse der Regressionskoeffizienten davon ab, welche wir als abhängige Variable und welche als unabhängige Variable verwenden. In diesem Fall passen wir keinen Achsenabschnitt an, weil wirx
eine Funktiony
ohne zufällige Variation erstellt haben:Die Regressionen sagen uns das
y=0.2x
und dasx=5y
, was natürlich gleichwertig ist. Der Korrelationskoeffizient zeigt uns einfach, dass es eine exakte Übereinstimmung in den Einheitenänderungsniveaus zwischenx
und gibty
, so dass (zum Beispiel) eine Erhöhung um 1 Einheity
immer eine Erhöhung um 0,2 Einheiten bewirktx
.quelle
Die Einsicht, dass wir dieselbe lineare Regression erhalten sollten, da Pearsons Korrelation gleich ist, ob wir eine Regression von x gegen y oder von y gegen x durchführen. Es ist nur geringfügig falsch und wir können es verwenden, um zu verstehen, was tatsächlich geschieht.
Dies ist die Gleichung für eine Linie, die wir aus unserer Regression gewinnen wollen
Die Gleichung für die Steigung dieser Linie wird durch Pearsons Korrelation bestimmt
Dies ist die Gleichung für Pearsons Korrelation. Es ist dasselbe, ob wir x gegen y oder y gegen x regressieren
Wenn wir jedoch auf unsere zweite Gleichung für die Steigung zurückblicken, sehen wir, dass die Pearson-Korrelation nicht der einzige Ausdruck in dieser Gleichung ist. Wenn wir y gegen x berechnen, haben wir auch die Stichprobenstandardabweichung von y geteilt durch die Stichprobenstandardabweichung von x. Wenn wir die Regression von x gegen y berechnen würden, müssten wir diese beiden Terme invertieren.
quelle
Bei Fragen wie diesen ist es einfach, sich mit den technischen Fragen zu beschäftigen. Daher möchte ich mich speziell auf die Frage im Titel des Threads konzentrieren, in der gefragt wird: Was ist der Unterschied zwischen der linearen Regression für y mit x und x mit y? ?
Betrachten Sie für einen Moment ein (vereinfachtes) ökonometrisches Modell aus der Humankapitaltheorie (der Link führt zu einem Artikel von Nobelpreisträger Gary Becker). Angenommen, wir geben ein Modell der folgenden Form an:
Wenn wir nun die ökonometrische Gleichung umkehren (d. H. Y von x in x von y ändern), wird das Modell zu einem
Ich bin sicher, Sie können sich weitere Beispiele wie dieses vorstellen (auch außerhalb der Wirtschaft), aber wie Sie sehen, kann sich die Interpretation des Modells erheblich ändern, wenn wir von y auf x auf y umstellen.
Also, um die Frage zu beantworten: Was ist der Unterschied zwischen der linearen Regression auf y mit x und x mit y? können wir sagen, dass sich die Interpretation der Regressionsgleichung ändert, wenn wir x auf y anstelle von y auf x zurückführen. Wir sollten diesen Punkt nicht übersehen, da ein Modell, das eine solide Interpretation hat, schnell zu einem Modell werden kann, das wenig oder keinen Sinn ergibt.
quelle
Zu diesem Thema gibt es ein sehr interessantes Phänomen. Nach dem Austausch von x und y ändert sich zwar der Regressionskoeffizient, aber die t-Statistik / F-Statistik und das Signifikanzniveau für den Koeffizienten ändern sich nicht. Dies gilt auch für multiple Regressionen, bei denen wir y mit einer der unabhängigen Variablen austauschen.
Dies ist auf eine heikle Beziehung zwischen der F-Statistik und dem (Teil-) Korrelationskoeffizienten zurückzuführen. Diese Beziehung berührt wirklich den Kern der linearen Modelltheorie. Mehr Details zu dieser Schlussfolgerung finden Sie in meinem Notizbuch: Warum der Austausch von y und x keine Auswirkung auf p hat
quelle
Erweitere die ausgezeichnete Antwort von @ gung:
quelle
Es ist auch wichtig zu beachten, dass zwei unterschiedlich aussehende Probleme die gleiche Lösung haben können.
quelle
Nun, es ist wahr, dass für eine einfache bivariate Regression der lineare Korrelationskoeffizient und das R-Quadrat für beide Gleichungen gleich sind. Die Steigungen sind jedoch r Sy / Sx oder r Sx / Sy, die nicht gegenseitig sind, es sei denn, r = 1.
quelle
Die Grundidee der Regression kann "Ursache und Wirkung" oder "unabhängig und abhängig" sein. Die normale Praxis, unabhängige Variablen auf der X-Achse und abhängige Variablen auf der Y-Achse zu platzieren, wird durch Y = mX + c dargestellt. Ob die Steigung als m (X auf Y) oder (Y auf X) und die Regression als: (X auf Y) oder (Y auf X) bezeichnet werden soll. Es wird auf beide Arten gehandhabt, was nicht gut ist und geklärt werden muss. Modellierer verwenden häufig Streudiagramme, um zu beurteilen, ob simulierte Reihen mit beobachteten Reihen übereinstimmen. und die Verwendung von Regressionsgeraden ist unvermeidlich. Hier gibt es keinen Verursachungssatz. Unter Berücksichtigung dieser Notwendigkeit steht die stumme Frage, die der Faden stellt. Oder einfach ausgedrückt, erläutern Sie bitte, wie die normale Regressionsanalyse aufzurufen ist: X auf Y; oder Y auf X ?, geht über die verursachende Antwort hinaus. Es ist keine Antwort auf den Hauptthema; aber eine parallele Frage.
quelle