Beziehen sich Korrelation oder Bestimmungskoeffizient auf den Prozentsatz der Werte, die entlang einer Regressionslinie fallen?

12

Die Korrelation r ist ein Maß für die lineare Assoziation zwischen zwei Variablen. Der Bestimmungskoeffizient r2 ist ein Maß dafür, wie viel von der Variabilität in einer Variablen durch Variation in der anderen "erklärt" werden kann.

Wenn zum Beispiel r=0.8 die Korrelation zwischen zwei Variablen ist, dann ist r2=0.64 . Somit können 64% der Variabilität in einem durch Unterschiede im anderen erklärt werden. Richtig?

Meine Frage ist, ob für das angegebene Beispiel eine der folgenden Aussagen richtig ist?

  1. 64% der Werte fallen entlang der Regressionslinie
  2. 80% der Werte fallen entlang der Regressionslinie
Bradex
quelle
Der Begriff "fallen entlang" ist ungenau. Es scheint, dass zumindest einige Antworten es so interpretieren, dass es "genau aufliegt", und da ist die Antwort eindeutig nicht (obwohl diese Idee zu einem interessanten Maß linearer Assoziation führen könnte, das in einigen bestimmten Situationen geeignet sein könnte - z. B. dort war eine Mischung aus keinem Rauschen / Fehler zu jeder Zeit und einigen gelegentlichen Fehlern, wie bei einem kontaminierenden Prozess - und dann würden Sie den Anteil der Daten schätzen, die nicht kontaminiert sind. Wenn Sie etwas anderes als "genau auflegen" meinten, müssten Sie angeben, was diese Bedeutung ist.
Glen_b -Reinstate Monica

Antworten:

8

Der erste Teil davon ist im Grunde genommen richtig - aber es sind 64% der Variation, die durch das Modell erklärt werden. In einer einfachen linearen Regression bedeutet: Y ~ X, wenn 0,64 ist, dass 64% der Variation von Y durch die lineare Beziehung zwischen Y und X bestimmt werden. Es ist möglich, eine starke Beziehung mit sehr geringem R 2 zu haben , wenn die Beziehung stark nichtlinear ist.R2R2

In Bezug auf Ihre zwei nummerierten Fragen ist keine der beiden richtig. In der Tat ist es möglich, dass keiner der Punkte genau auf der Regressionsgeraden liegt. Das wird nicht gemessen. Es geht vielmehr darum, wie nahe der Durchschnittspunkt an der Linie liegt. Wenn alle oder fast alle Punkte nahe beieinander liegen (auch wenn keiner genau auf der Linie liegt), ist hoch. Wenn die meisten Punkte weit von der Linie entfernt sind, ist R 2 niedrig. Wenn die meisten Punkte nah und einige weit entfernt sind, ist die Regression falsch (Problem der Ausreißer). Auch andere Dinge können schief gehen.R2R2

Außerdem habe ich den Begriff "weit" eher vage gelassen. Dies hängt davon ab, wie weit die X verteilt sind. Das Präzisieren dieser Begriffe ist ein Teil dessen, was Sie in einem Kurs über Regression lernen. Ich werde hier nicht darauf eingehen.

Peter Flom - Wiedereinsetzung von Monica
quelle
Nun, das hat für mich viel aufgeklärt! Vielen Dank Mimshot und Peter Flom! Vielen Dank euch beiden! :)
Bradex
1
+1, gute Antwort, würde es Ihnen etwas ausmachen, etwas wie "In der Tat [ist es möglich, dass] keiner der Punkte lügt ..." hinzuzufügen. Es könnte sich auch lohnen, darüber zu diskutieren, dass die Vorstellung, wie weit die Punkte von der Linie entfernt sind, auch von der Verteilung der X abhängt.
gung - Wiedereinsetzung von Monica
15

Sie haben Recht mit dem ersten Teil Ihrer Aussage. Der üblicher Weg , den Koeffizienten der Bestimmung des Interpretierens wird als der Prozentsatz der Variation der abhängigen Variablen y ( V a r ( y ) ) , die wir mit den erklärenden Variablen zu erklären , sind in der Lage. Die genaue Interpretation und Herleitung des Bestimmtheitsmaßes R 2 finden Sie hierR2yVar(y)R2

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

Jedoch ist eine Art und Weise weniger bekannte Auslegung der Bestimmungskoeffizient ist wie der quadrierte Pearson - Korrelationskoeffizient zwischen den beobachteten Werten zu interpretieren , y i und den angepaßten Werten y i . Der Beweis , dass der Koeffizient der Bestimmung ist das Äquivalent der quadrierten Pearson - Korrelationskoeffizienten zwischen den beobachteten Werten y i und die angepaßten Werten y i hier gefunden werden kannR2yiy^iyiy^i

http://economictheoryblog.com/2014/11/05/proof/

Dies sind meines Erachtens die einzig sinnvollen Interpretationsmöglichkeiten des Bestimmtheitsmaßes . Daraus folgt, dass die beiden von Ihnen gemachten Aussagen nicht aus dem R 2 abgeleitet werden können .R2R2

michael
quelle
2
R2rR2
2
Corr(y,y^)R2
2

Niether 1 noch 2 ist richtig.

Angenommen, Sie versuchen, eine Menge von Werten vorherzusagenyyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

Dann

10.64=0.36=var(yyy^y^)var(yy)
Mimshot
quelle