Die Korrelation ist ein Maß für die lineare Assoziation zwischen zwei Variablen. Der Bestimmungskoeffizient ist ein Maß dafür, wie viel von der Variabilität in einer Variablen durch Variation in der anderen "erklärt" werden kann.
Wenn zum Beispiel die Korrelation zwischen zwei Variablen ist, dann ist . Somit können 64% der Variabilität in einem durch Unterschiede im anderen erklärt werden. Richtig?
Meine Frage ist, ob für das angegebene Beispiel eine der folgenden Aussagen richtig ist?
- 64% der Werte fallen entlang der Regressionslinie
- 80% der Werte fallen entlang der Regressionslinie
regression
correlation
r-squared
Bradex
quelle
quelle
Antworten:
Der erste Teil davon ist im Grunde genommen richtig - aber es sind 64% der Variation, die durch das Modell erklärt werden. In einer einfachen linearen Regression bedeutet: Y ~ X, wenn 0,64 ist, dass 64% der Variation von Y durch die lineare Beziehung zwischen Y und X bestimmt werden. Es ist möglich, eine starke Beziehung mit sehr geringem R 2 zu haben , wenn die Beziehung stark nichtlinear ist.R2 R2
In Bezug auf Ihre zwei nummerierten Fragen ist keine der beiden richtig. In der Tat ist es möglich, dass keiner der Punkte genau auf der Regressionsgeraden liegt. Das wird nicht gemessen. Es geht vielmehr darum, wie nahe der Durchschnittspunkt an der Linie liegt. Wenn alle oder fast alle Punkte nahe beieinander liegen (auch wenn keiner genau auf der Linie liegt), ist hoch. Wenn die meisten Punkte weit von der Linie entfernt sind, ist R 2 niedrig. Wenn die meisten Punkte nah und einige weit entfernt sind, ist die Regression falsch (Problem der Ausreißer). Auch andere Dinge können schief gehen.R2 R2
Außerdem habe ich den Begriff "weit" eher vage gelassen. Dies hängt davon ab, wie weit die X verteilt sind. Das Präzisieren dieser Begriffe ist ein Teil dessen, was Sie in einem Kurs über Regression lernen. Ich werde hier nicht darauf eingehen.
quelle
Sie haben Recht mit dem ersten Teil Ihrer Aussage. Der üblicher Weg , den Koeffizienten der Bestimmung des Interpretierens wird als der Prozentsatz der Variation der abhängigen Variablen y ( V a r ( y ) ) , die wir mit den erklärenden Variablen zu erklären , sind in der Lage. Die genaue Interpretation und Herleitung des Bestimmtheitsmaßes R 2 finden Sie hierR2 y Var(y) R2
http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/
Jedoch ist eine Art und Weise weniger bekannte Auslegung der Bestimmungskoeffizient ist wie der quadrierte Pearson - Korrelationskoeffizient zwischen den beobachteten Werten zu interpretieren , y i und den angepaßten Werten y i . Der Beweis , dass der Koeffizient der Bestimmung ist das Äquivalent der quadrierten Pearson - Korrelationskoeffizienten zwischen den beobachteten Werten y i und die angepaßten Werten y i hier gefunden werden kannR2 yi y^i yi y^i
http://economictheoryblog.com/2014/11/05/proof/
Dies sind meines Erachtens die einzig sinnvollen Interpretationsmöglichkeiten des Bestimmtheitsmaßes . Daraus folgt, dass die beiden von Ihnen gemachten Aussagen nicht aus dem R 2 abgeleitet werden können .R2 R2
quelle
Niether 1 noch 2 ist richtig.
Angenommen, Sie versuchen, eine Menge von Werten vorherzusagenyy xx
Dann
quelle