Ich möchte den Begriff von , der das Ausmaß der Variation zwischen Variablen beschreibt , vollständig erfassen . Jede Weberklärung ist ein bisschen mechanisch und stumpf. Ich möchte das Konzept "verstehen" und die Zahlen nicht nur mechanisch verwenden.
ZB: Stunden studiert vs. Testergebnis
= 0,8
= 0,64
- Also, was bedeutet das?
- 64% der Variabilität der Testergebnisse lassen sich durch Stunden erklären?
- Woher wissen wir das nur durch Quadrieren?
regression
correlation
variance
JackOfAll
quelle
quelle
Antworten:
Beginnen Sie mit der Grundidee der Variation. Ihr Anfangsmodell ist die Summe der quadratischen Abweichungen vom Mittelwert. Der R ^ 2-Wert ist der Anteil dieser Variation, der durch die Verwendung eines alternativen Modells berücksichtigt wird. Beispielsweise gibt R-Quadrat an, wie viel von der Variation in Y Sie durch Aufsummieren der quadratischen Abstände von einer Regressionslinie anstelle des Mittelwerts entfernen können.
Ich denke, dies ist vollkommen klar, wenn wir an das einfache Regressionsproblem denken, das herausgearbeitet wurde. Stellen Sie sich ein typisches Streudiagramm vor, in dem Sie einen Prädiktor X entlang der horizontalen Achse und eine Antwort Y entlang der vertikalen Achse haben.
Der Mittelwert ist eine horizontale Linie auf dem Plot, bei der Y konstant ist. Die Gesamtvariation in Y ist die Summe der quadratischen Differenzen zwischen dem Mittelwert von Y und jedem einzelnen Datenpunkt. Es ist der Abstand zwischen der Mittellinie und jedem einzelnen Punkt, der quadriert und aufsummiert wird.
Sie können auch ein anderes Maß für die Variabilität berechnen, nachdem Sie die Regressionsgerade aus dem Modell erhalten haben. Dies ist der Unterschied zwischen jedem Y-Punkt und der Regressionsgeraden. Anstatt jedes Quadrat (Y - der Mittelwert) erhalten wir ein Quadrat (Y - der Punkt auf der Regressionsgeraden).
Wenn die Regressionslinie alles andere als horizontal ist, erhalten wir weniger Gesamtentfernung, wenn wir diese angepasste Regressionslinie anstelle des Mittelwerts verwenden - das heißt, es gibt weniger ungeklärte Abweichungen. Das Verhältnis zwischen der erklärten zusätzlichen Variante und der ursprünglichen Variante ist Ihr R ^ 2. Es ist der Anteil der ursprünglichen Variation in Ihrer Antwort, der durch Anpassen dieser Regressionslinie erklärt wird.
Hier ist ein R-Code für ein Diagramm mit dem Mittelwert, der Regressionslinie und Segmenten von der Regressionslinie zu jedem Punkt, um die Visualisierung zu erleichtern:
quelle
Eine mathematische Demonstration der Beziehung zwischen den beiden ist hier: Pearsons Korrelation und Regressionsanalyse der kleinsten Quadrate .
Ich bin nicht sicher, ob es eine geometrische oder eine andere Intuition gibt, die außer der Mathematik angeboten werden kann, aber wenn mir eine einfällt, werde ich diese Antwort aktualisieren.Update: Geometrische Intuition
Alternativtext http://a.imageshack.us/img202/669/linearregression1.png
Nach dem Satz von Pythagoras haben wir:
Daher haben wir die erforderliche Beziehung:
Hoffentlich hilft das.
quelle
Das Regression By Eye- Applet kann hilfreich sein, wenn Sie versuchen, eine gewisse Intuition zu entwickeln.
Sie können Daten generieren und dann einen Wert für R erraten , den Sie dann mit dem tatsächlichen Wert vergleichen können.
quelle