Beziehen sich Korrelation oder Bestimmungskoeffizient auf den Prozentsatz der Werte, die entlang einer Regressionslinie fallen?

12

Die Korrelation $r$ ist ein Maß für die lineare Assoziation zwischen zwei Variablen. Der Bestimmungskoeffizient $r^2$ ist ein Maß dafür, wie viel von der Variabilität in einer Variablen durch Variation in der anderen "erklärt" werden kann.

Wenn zum Beispiel $r = 0.8$ die Korrelation zwischen zwei Variablen ist, dann ist $r^2 = 0.64$ . Somit können 64% der Variabilität in einem durch Unterschiede im anderen erklärt werden. Richtig?

Meine Frage ist, ob für das angegebene Beispiel eine der folgenden Aussagen richtig ist?

64% der Werte fallen entlang der Regressionslinie
80% der Werte fallen entlang der Regressionslinie

regression correlation r-squared Bradex
quelle

Der Begriff "fallen entlang" ist ungenau. Es scheint, dass zumindest einige Antworten es so interpretieren, dass es "genau aufliegt", und da ist die Antwort eindeutig nicht (obwohl diese Idee zu einem interessanten Maß linearer Assoziation führen könnte, das in einigen bestimmten Situationen geeignet sein könnte - z. B. dort war eine Mischung aus keinem Rauschen / Fehler zu jeder Zeit und einigen gelegentlichen Fehlern, wie bei einem kontaminierenden Prozess - und dann würden Sie den Anteil der Daten schätzen, die nicht kontaminiert sind. Wenn Sie etwas anderes als "genau auflegen" meinten, müssten Sie angeben, was diese Bedeutung ist.

Glen_b -Reinstate Monica

8

Der erste Teil davon ist im Grunde genommen richtig - aber es sind 64% der Variation, die durch das Modell erklärt werden. In einer einfachen linearen Regression bedeutet: Y ~ X, wenn 0,64 ist, dass 64% der Variation von Y durch die lineare Beziehung zwischen Y und X bestimmt werden. Es ist möglich, eine starke Beziehung mit sehr geringem , wenn die Beziehung stark nichtlinear ist. $R^2$ $R^2$

In Bezug auf Ihre zwei nummerierten Fragen ist keine der beiden richtig. In der Tat ist es möglich, dass keiner der Punkte genau auf der Regressionsgeraden liegt. Das wird nicht gemessen. Es geht vielmehr darum, wie nahe der Durchschnittspunkt an der Linie liegt. Wenn alle oder fast alle Punkte nahe beieinander liegen (auch wenn keiner genau auf der Linie liegt), ist hoch. Wenn die meisten Punkte weit von der Linie entfernt sind, ist niedrig. Wenn die meisten Punkte nah und einige weit entfernt sind, ist die Regression falsch (Problem der Ausreißer). Auch andere Dinge können schief gehen. $R^2$ $R^2$

Außerdem habe ich den Begriff "weit" eher vage gelassen. Dies hängt davon ab, wie weit die X verteilt sind. Das Präzisieren dieser Begriffe ist ein Teil dessen, was Sie in einem Kurs über Regression lernen. Ich werde hier nicht darauf eingehen.

Peter Flom - Wiedereinsetzung von Monica
quelle

Nun, das hat für mich viel aufgeklärt! Vielen Dank Mimshot und Peter Flom! Vielen Dank euch beiden! :)

Bradex

1

+1, gute Antwort, würde es Ihnen etwas ausmachen, etwas wie "In der Tat [ist es möglich, dass] keiner der Punkte lügt ..." hinzuzufügen. Es könnte sich auch lohnen, darüber zu diskutieren, dass die Vorstellung, wie weit die Punkte von der Linie entfernt sind, auch von der Verteilung der X abhängt.

gung - Wiedereinsetzung von Monica

15

Sie haben Recht mit dem ersten Teil Ihrer Aussage. Der üblicher Weg , den Koeffizienten der Bestimmung des Interpretierens wird als der Prozentsatz der Variation der abhängigen Variablen ( ) , die wir mit den erklärenden Variablen zu erklären , sind in der Lage. Die genaue Interpretation und Herleitung des Bestimmtheitsmaßes finden Sie hier $R^{2}$ $y$ $Var(y)$ $R^{2}$

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

Jedoch ist eine Art und Weise weniger bekannte Auslegung der Bestimmungskoeffizient ist wie der quadrierte Pearson - Korrelationskoeffizient zwischen den beobachteten Werten zu interpretieren , und den angepaßten Werten . Der Beweis , dass der Koeffizient der Bestimmung ist das Äquivalent der quadrierten Pearson - Korrelationskoeffizienten zwischen den beobachteten Werten und die angepaßten Werten hier gefunden werden kann $R^{2}$ $y_{i}$ $\hat{y}_{i}$ $y_{i}$ $\hat{y}_{i}$

http://economictheoryblog.com/2014/11/05/proof/

Dies sind meines Erachtens die einzig sinnvollen Interpretationsmöglichkeiten des Bestimmtheitsmaßes . Daraus folgt, dass die beiden von Ihnen gemachten Aussagen nicht aus dem . $R^{2}$ $R^{2}$

michael
quelle

2

R^{2}

$R^2$

r

$r$

R^{2}

$R^2$

2

Corr (y, \hat{y})

$\operatorname{Corr}(y, \hat y)$

R^{2}

$R^2$

2

Niether 1 noch 2 ist richtig.

Angenommen, Sie versuchen, eine Menge von Werten vorherzusagen $\pmb{y}$ $\pmb{x}$

y_{i} = b + m x_{i} + ϵ_{i}

$y_i = b + mx_i + \epsilon_i$

$\epsilon_i \sim \mathcal{N(0,\sigma^2)}$ $R^2=.64$ $y$ $x$

{\hat{y}}_{i} = b + m x_{i}

$\hat{y}_i = b + mx_i$

Dann

1 - 0.64 = 0.36 = \frac{v a r (y y - \hat{y} \hat{y})}{v a r (y y)}

$1-0.64 = 0.36 = \frac{\mathrm{var}(\pmb{y}-\pmb{\hat{y}})}{\mathrm{var}(\pmb{y})}$

Mimshot
quelle

Beziehen sich Korrelation oder Bestimmungskoeffizient auf den Prozentsatz der Werte, die entlang einer Regressionslinie fallen?

Antworten: