Warum ergibt das Quadrieren von

12

Dies mag eine grundlegende Frage sein, aber ich habe mich gefragt, warum ein R Wert in einem Regressionsmodell einfach quadriert werden kann, um eine Zahl der erklärten Varianz zu erhalten.

Ich verstehe, dass der R Koeffizient die Stärke einer Beziehung angeben kann, aber ich verstehe nicht, wie einfach das Quadrieren dieses Werts ein Maß für die erklärte Varianz ergibt.

Irgendeine einfache Erklärung dafür?

Vielen Dank für Ihre Hilfe!

David
quelle
Suchen Sie etwas Intuitives oder Mathematischeres? Haben Sie einige der anderen Fragen zu und den Korrelationskoeffizienten auf dieser Site durchgesehen ? R2
Kardinal
1
Zwei verwandte Fragen sind zum Beispiel hier und hier . Wenn Sie dort mit den Gleichungen herumspielen, können Sie die mathematische Äquivalenz ableiten. Aber beide dürften vom Standpunkt der Intuition aus nicht besonders hilfreich sein.
Kardinal
Ich sehe das umgekehrt. Es ist das R-Quadrat, das als 1-Residualvarianz / Gesamtvarianz definiert ist, und dann ist R die positive Quadratwurzel davon. Es kommt nur vor, dass bei einer einfachen linearen Regression R square auf das Quadrat des Korrelationskoeffizienten reduziert wird.
Michael R. Chernick
@Michael, Sie wollten zweifellos die entsprechend signierte Quadratwurzel sagen, nicht die positive .
Kardinal
1
@ Kardinal, ich habe den gleichen Eindruck - (oder r ) bezieht sich auf den Probenkorrelationskoeffizienten und wäre überrascht, eine weit verbreitete Referenz zu sehen, die verwendet, um den absoluten Wert der Probenkorrelation zu bezeichnenRr
Makro

Antworten:

15

Hand-wavingly die Korrelation kann zwischen zwei Vektoren, die abhängige Vektor als Maß des Winkels betrachtet werden Y und der unabhängigen Vektor - X . Wenn der Winkel zwischen den Vektoren ist θ die Korrelation R ist cos ( θ ) . Der Teil von Y , der durch X erklärt wird, hat die Länge | | Y | | cos ( θ ) und ist parallel zu X (oder der Projektion von Y auf X ). Der nicht erläuterte Teil ist langRYXθRcos(θ)YX||Y||cos(θ)XYX und ist orthogonal zu X. In Bezug auf Varianzen haben wir ||Y||sin(θ)X wobei der erste Term rechts die erklärte Varianz und der zweite die unerklärte Varianz ist. Die Fraktiondie erläutert wirdist somit R 2 nicht R .

σY2=σY2cos2(θ)+σY2sin2(θ)
R2R
Dilip Sarwate
quelle
2
(+1) Eigentlich geht hier nicht allzu viel Handwinken vor sich. Der geometrische Gesichtspunkt ist aus meiner Sicht der intuitivste. Es wird wahrscheinlich eine qualitativ hochwertige Open-Source-Figur geben, die die Dinge genau so darstellt.
Kardinal
(1) Ich begann eine direkte Ableitung zu schreiben , dass war gleich die übliche Definition von R 2 als Verhältnis von Varianzen aber, dabei bemerkte ich es vorgesehen , wenig / nein Intuition (und daher wäre es für das Original-Poster wahrscheinlich nicht hilfreich) - ich denke, das tut es! cor(y,y^)2R2
Makro
1
Dies beantwortet nicht die Frage, sondern zeigt, wie das Quadrat R als Quadrat des Korrelationskoeffizienten ohne Bezug auf R genannt wird. Daher sind Quellen, die meine Behauptung bestätigen oder widerlegen, möglicherweise schwer zu finden. Dies ist aus einem Artikel über den Bestimmungskoeffizienten in Wikipedia:
Michael R. Chernick
Als quadratischer Korrelationskoeffizient In ähnlicher Weise entspricht R2 nach der Regression der kleinsten Quadrate mit einem konstanten + linearen Modell (dh einer einfachen linearen Regression) dem Quadrat des Korrelationskoeffizienten zwischen den beobachteten und den modellierten (vorhergesagten) Datenwerten.
Michael R. Chernick
Unter allgemeinen Bedingungen wird ein R2-Wert manchmal als Quadrat des Korrelationskoeffizienten zwischen den ursprünglichen und den modellierten Datenwerten berechnet. In diesem Fall ist der Wert nicht direkt ein Maß dafür, wie gut die modellierten Werte sind, sondern vielmehr ein Maß dafür, wie gut ein Prädiktor aus den modellierten Werten konstruiert werden kann (indem ein überarbeiteter Prädiktor der Form α + βƒi erstellt wird). Nach Everitt (2002, S. 78) ist diese Verwendung speziell die Definition des Begriffs "Bestimmungskoeffizient": das Quadrat der Korrelation zwischen zwei (allgemeinen) Variablen.
Michael R. Chernick