Warum ergibt das Quadrieren von

Dies mag eine grundlegende Frage sein, aber ich habe mich gefragt, warum ein $R$ Wert in einem Regressionsmodell einfach quadriert werden kann, um eine Zahl der erklärten Varianz zu erhalten.

Ich verstehe, dass der $R$ Koeffizient die Stärke einer Beziehung angeben kann, aber ich verstehe nicht, wie einfach das Quadrieren dieses Werts ein Maß für die erklärte Varianz ergibt.

Irgendeine einfache Erklärung dafür?

Vielen Dank für Ihre Hilfe!

regression correlation r-squared David
quelle

Suchen Sie etwas Intuitives oder Mathematischeres? Haben Sie einige der anderen Fragen zu

und den Korrelationskoeffizienten auf dieser Site durchgesehen ?

R^{2}

$R^2$

Kardinal

Zwei verwandte Fragen sind zum Beispiel hier und hier . Wenn Sie dort mit den Gleichungen herumspielen, können Sie die mathematische Äquivalenz ableiten. Aber beide dürften vom Standpunkt der Intuition aus nicht besonders hilfreich sein.

Kardinal

Ich sehe das umgekehrt. Es ist das R-Quadrat, das als 1-Residualvarianz / Gesamtvarianz definiert ist, und dann ist R die positive Quadratwurzel davon. Es kommt nur vor, dass bei einer einfachen linearen Regression R square auf das Quadrat des Korrelationskoeffizienten reduziert wird.

Michael R. Chernick

@Michael, Sie wollten zweifellos die entsprechend signierte Quadratwurzel sagen, nicht die positive .

Kardinal

@ Kardinal, ich habe den gleichen Eindruck -

(oder

) bezieht sich auf den Probenkorrelationskoeffizienten und wäre überrascht, eine weit verbreitete Referenz zu sehen, die verwendet, um den absoluten Wert der Probenkorrelation zu bezeichnen

R

$R$

r

$r$

Makro

Hand-wavingly die Korrelation kann zwischen zwei Vektoren, die abhängige Vektor als Maß des Winkels betrachtet werden und der unabhängigen Vektor - . Wenn der Winkel zwischen den Vektoren ist die Korrelation ist . Der Teil von , der durch erklärt wird, hat die Länge und ist parallel zu (oder der Projektion von auf ). Der nicht erläuterte Teil ist lang $R$ $Y$ $X$ $\theta$ $R$ $\cos(\theta)$ $Y$ $X$ $||Y||\cos(\theta)$ $X$ $Y$ $X$ und ist orthogonal zu In Bezug auf Varianzen haben wir $||Y||\sin(\theta)$ $X$ wobei der erste Term rechts die erklärte Varianz und der zweite die unerklärte Varianz ist. Die Fraktiondie erläutert wirdist somit nicht .

σ_{Y}^{2} = σ_{Y}^{2} \cos^{2} (θ) + σ_{Y}^{2} \sin^{2} (θ)

$\sigma_Y^2 = \sigma_Y^2\cos^2(\theta) + \sigma_Y^2\sin^2(\theta)$

R^{2}

$R^2$

R

$R$

Dilip Sarwate
quelle

(+1) Eigentlich geht hier nicht allzu viel Handwinken vor sich. Der geometrische Gesichtspunkt ist aus meiner Sicht der intuitivste. Es wird wahrscheinlich eine qualitativ hochwertige Open-Source-Figur geben, die die Dinge genau so darstellt.

Kardinal

(1) Ich begann eine direkte Ableitung zu schreiben , dass

war gleich die übliche Definition von

als Verhältnis von Varianzen aber, dabei bemerkte ich es vorgesehen , wenig / nein Intuition (und daher wäre es für das Original-Poster wahrscheinlich nicht hilfreich) - ich denke, das tut es!

c o r (y, \hat{y})^{2}

${\rm cor}(y,\hat{y})^2$

R^{2}

$R^2$

Makro

Dies beantwortet nicht die Frage, sondern zeigt, wie das Quadrat R als Quadrat des Korrelationskoeffizienten ohne Bezug auf R genannt wird. Daher sind Quellen, die meine Behauptung bestätigen oder widerlegen, möglicherweise schwer zu finden. Dies ist aus einem Artikel über den Bestimmungskoeffizienten in Wikipedia:

Michael R. Chernick

Als quadratischer Korrelationskoeffizient In ähnlicher Weise entspricht R2 nach der Regression der kleinsten Quadrate mit einem konstanten + linearen Modell (dh einer einfachen linearen Regression) dem Quadrat des Korrelationskoeffizienten zwischen den beobachteten und den modellierten (vorhergesagten) Datenwerten.

Michael R. Chernick

Unter allgemeinen Bedingungen wird ein R2-Wert manchmal als Quadrat des Korrelationskoeffizienten zwischen den ursprünglichen und den modellierten Datenwerten berechnet. In diesem Fall ist der Wert nicht direkt ein Maß dafür, wie gut die modellierten Werte sind, sondern vielmehr ein Maß dafür, wie gut ein Prädiktor aus den modellierten Werten konstruiert werden kann (indem ein überarbeiteter Prädiktor der Form α + βƒi erstellt wird). Nach Everitt (2002, S. 78) ist diese Verwendung speziell die Definition des Begriffs "Bestimmungskoeffizient": das Quadrat der Korrelation zwischen zwei (allgemeinen) Variablen.

Michael R. Chernick

Warum ergibt das Quadrieren von

Antworten: