Bestimmungskoeffizient (

21

Ich möchte den Begriff von , der das Ausmaß der Variation zwischen Variablen beschreibt , vollständig erfassen . Jede Weberklärung ist ein bisschen mechanisch und stumpf. Ich möchte das Konzept "verstehen" und die Zahlen nicht nur mechanisch verwenden.r2

ZB: Stunden studiert vs. Testergebnis

= 0,8r

= 0,64r2

  • Also, was bedeutet das?
  • 64% der Variabilität der Testergebnisse lassen sich durch Stunden erklären?
  • Woher wissen wir das nur durch Quadrieren?
JackOfAll
quelle
Ihre Frage bezieht sich nicht auf R vs R-Quadrat (Sie verstehen, dass ), sondern auf die Interpretation von r 2 . Bitte formulieren Sie den Titel neu. 0.82=0.64r2
Robin Girard
@amoeba stimmte zu, ich zog den Tag.
Brett
Sie benötigen , um die Signifikanz zu bestimmen. Siehe auch stats.stackexchange.com/a/265924/99274 . n
Carl

Antworten:

27

Beginnen Sie mit der Grundidee der Variation. Ihr Anfangsmodell ist die Summe der quadratischen Abweichungen vom Mittelwert. Der R ^ 2-Wert ist der Anteil dieser Variation, der durch die Verwendung eines alternativen Modells berücksichtigt wird. Beispielsweise gibt R-Quadrat an, wie viel von der Variation in Y Sie durch Aufsummieren der quadratischen Abstände von einer Regressionslinie anstelle des Mittelwerts entfernen können.

Ich denke, dies ist vollkommen klar, wenn wir an das einfache Regressionsproblem denken, das herausgearbeitet wurde. Stellen Sie sich ein typisches Streudiagramm vor, in dem Sie einen Prädiktor X entlang der horizontalen Achse und eine Antwort Y entlang der vertikalen Achse haben.

Der Mittelwert ist eine horizontale Linie auf dem Plot, bei der Y konstant ist. Die Gesamtvariation in Y ist die Summe der quadratischen Differenzen zwischen dem Mittelwert von Y und jedem einzelnen Datenpunkt. Es ist der Abstand zwischen der Mittellinie und jedem einzelnen Punkt, der quadriert und aufsummiert wird.

Sie können auch ein anderes Maß für die Variabilität berechnen, nachdem Sie die Regressionsgerade aus dem Modell erhalten haben. Dies ist der Unterschied zwischen jedem Y-Punkt und der Regressionsgeraden. Anstatt jedes Quadrat (Y - der Mittelwert) erhalten wir ein Quadrat (Y - der Punkt auf der Regressionsgeraden).

Wenn die Regressionslinie alles andere als horizontal ist, erhalten wir weniger Gesamtentfernung, wenn wir diese angepasste Regressionslinie anstelle des Mittelwerts verwenden - das heißt, es gibt weniger ungeklärte Abweichungen. Das Verhältnis zwischen der erklärten zusätzlichen Variante und der ursprünglichen Variante ist Ihr R ^ 2. Es ist der Anteil der ursprünglichen Variation in Ihrer Antwort, der durch Anpassen dieser Regressionslinie erklärt wird.

Bildbeschreibung hier eingeben

Hier ist ein R-Code für ein Diagramm mit dem Mittelwert, der Regressionslinie und Segmenten von der Regressionslinie zu jedem Punkt, um die Visualisierung zu erleichtern:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)
Brett
quelle
> Das Verhältnis zwischen der erklärten Variante und der ursprünglichen Variante ist Ihr R ^ 2 Mal sehen, ob ich das habe. Wenn die ursprüngliche Abweichung vom Mittelwert 100 und die Regressionsabweichung 20 beträgt, wird das Verhältnis = 20/100 = .2 R ^ 2 = .2 b / c 20% der mittleren Abweichung (rot) berücksichtigt für durch die erläuterte Variation (grün) (Im Fall von r = 1) Wenn die ursprüngliche Variation 50 und die Regressionsvariation 0 beträgt, dann ist das Verhältnis = 0/50 = 0 = 0% der Variation vom Mittelwert ( Rot) wird durch die erläuterte Variante (Grün) erklärt. Ich würde erwarten, dass R ^ 2 1 und nicht 0 ist.
JackOfAll
1
R ^ 2 = 1- (SSR / SST) oder (SST-SSR) / SST. In Ihren Beispielen ist R ^ 2 = .80 und 1.00. Der Unterschied zwischen der Regressionsgeraden und jedem Punkt ist derjenige, der durch die Anpassung UNerklärt bleibt. Der Rest ist der Anteil erklärt. Ansonsten ist das genau richtig.
Brett
Ich habe diesen letzten Absatz bearbeitet, um ihn ein bisschen klarer zu gestalten. Konzeptionell (und rechnerisch) ist alles vorhanden, was Sie benötigen. Es mag klarer sein, die Formel tatsächlich hinzuzufügen und auf die SST SSE und SSR zu verweisen, aber dann habe ich versucht, es konzeptionell zu verstehen
Brett,
dh: R ^ 2 ist der Anteil der Gesamtabweichung vom Mittelwert (SST), der die Differenz zwischen dem erwarteten Regressionswert und dem Mittelwert (SSE) ist. In meinem Beispiel für Stunden vs. Punktzahl wäre der Regressionswert die erwartete Testpunktzahl basierend auf der Korrelation mit den untersuchten Stunden. Jede weitere Abweichung davon wird der SSR zugeschrieben. Für einen gegebenen Punkt erklärten die untersuchten Stunden der Variablen / Regression x% der Gesamtabweichung vom Mittelwert (SST). Mit einem hohen r-Wert ist "Explained" ein großer Prozentsatz von SST im Vergleich zu SSR. Mit einem niedrigen r-Wert ist "Explain" ein geringerer Prozentsatz von SST im Vergleich zu SSR.
JackOfAll
@BrettMagill, ich denke, der Link zum Bild ist defekt ...
Garrett
6

Eine mathematische Demonstration der Beziehung zwischen den beiden ist hier: Pearsons Korrelation und Regressionsanalyse der kleinsten Quadrate .

Ich bin nicht sicher, ob es eine geometrische oder eine andere Intuition gibt, die außer der Mathematik angeboten werden kann, aber wenn mir eine einfällt, werde ich diese Antwort aktualisieren.

Update: Geometrische Intuition

xyy

y=x β+ϵ

y1,y2x1,x2

Alternativtext http://a.imageshack.us/img202/669/linearregression1.png

βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

Nach dem Satz von Pythagoras haben wir:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

Daher haben wir die erforderliche Beziehung:

yx

Hoffentlich hilft das.


quelle
Ich weiß Ihren Versuch zu helfen zu schätzen, aber leider hat dies die Situation nur 10x verschlimmert. Führen Sie wirklich Trigonometrie ein, um r ^ 2 zu erklären? Du bist viel zu schlau, um ein guter Lehrer zu sein!
JackOfAll
Ich dachte, du wolltest wissen, warum Korrelation ^ 2 = R ^ 2 ist. In jedem Fall hilft es, dasselbe Konzept auf unterschiedliche Weise zu verstehen, oder zumindest ist dies meine Perspektive.
3

Das Regression By Eye- Applet kann hilfreich sein, wenn Sie versuchen, eine gewisse Intuition zu entwickeln.

Sie können Daten generieren und dann einen Wert für R erraten , den Sie dann mit dem tatsächlichen Wert vergleichen können.

ars
quelle