Was ist der Unterschied zwischen der verbleibenden Quadratsumme und den gewöhnlichen kleinsten Quadraten?

8

Sie sehen für mich genauso aus, aber ich bin mir nicht sicher.

Update: Rückblickend war dies keine sehr gute Frage. OLS bezieht sich auf das Anpassen einer Zeile an Daten und RSS ist die Kostenfunktion, die OLS verwendet. Es werden die Parameter gefunden, die die geringste Restsumme der quadratischen Fehler ergeben. Es wird in OLS als normal bezeichnet und bezieht sich auf die Tatsache, dass wir eine lineare Anpassung durchführen.

sebastianspiegel
quelle

Antworten:

12

Hier ist eine Definition aus Wikipedia :

In der Statistik ist die Residuumsumme der Quadrate (RSS) die Summe der Quadrate der Residuen. Es ist ein Maß für die Diskrepanz zwischen den Daten und einem Schätzmodell. Ordinary Least Squares (OLS) ist eine Methode zur Schätzung der unbekannten Parameter in einem linearen Regressionsmodell mit dem Ziel, die Unterschiede zwischen den beobachteten Antworten in einem beliebigen Datensatz und den durch die lineare Approximation der Daten vorhergesagten Antworten zu minimieren.

RSS ist also ein Maß dafür, wie gut sich das Modell den Daten annähert, während OLS eine Methode zum Erstellen eines guten Modells ist.

Psidom
quelle
Sie haben keine Ahnung, wie hilfreich Ihre Antwort ist!
NoName
5

Gewöhnliche kleinste Quadrate (OLS)

Ordinary Least Squares (OLS) ist das Arbeitstier der Statistik. Es bietet eine Möglichkeit, komplizierte Ergebnisse zu erfassen und Verhalten (z. B. Trends) mithilfe von Linearität zu erklären. Die einfachste Anwendung von OLS ist das Anpassen einer Linie.

Rückstände

Residuen sind die beobachtbaren Fehler aus den geschätzten Koeffizienten. In gewissem Sinne sind die Residuen Schätzungen der Fehler.

Lassen Sie uns die Dinge mit RCode erklären :

Passen Sie zuerst eine gewöhnliche kleinste quadratische Linie von Diamantdatensätzen in die UsingRBibliothek an:

library(UsingR)
data("diamond")
y <- diamond$price
	x <- diamond$carat
n <- length(y)
olsline <- lm(y ~ x)
plot(x, y,
     main ="Odinary Least square line",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)

Geben Sie hier die Bildbeschreibung ein

Berechnen wir nun den Rest, dh die Restsumme der Quadrate: In können RSie den Rest einfach berechnen, da resid(olsline)wir ihn zur Visualisierung manuell berechnen:

# The residuals from R method
e <- resid(olsline)
## Obtain the residuals manually, get the predicated Ys first
yhat <- predict(olsline)
# The residuals are y -yhat, Let's check by comparing this with R's build in resid function
ce <- y - yhat
max(abs(e-ce))
## Let's do it again hard coding the calculation of Yhat
max(abs(e- (y - coef(olsline)[1] - coef(olsline)[2] * x)))
# Residuals arethe signed length of the red lines
plot(diamond$carat, diamond$price,
    main ="Residuals sum of (actual Y - predicted Y)^2",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
for (i in 1 : n) 
  lines(c(x[i], x[i]), c(y[i], yhat[i]), col = "red" , lwd = 2)

Geben Sie hier die Bildbeschreibung ein

Hoffe, diese Visualisierung wird Ihre Zweifel zwischen RSS & OLS klären

krishna Prasad
quelle
Referenz: Coursera Regression Models-Klasse , ich habe sie kürzlich abgeschlossen.
krishna Prasad
1

In gewisser Weise ist OLS ein Modell zur Schätzung der Regressionslinie basierend auf Trainingsdaten. Während RSS ein Parameter ist, um die Genauigkeit des Modells sowohl für Test- als auch für Trainingsdaten zu kennen.

Apoorv Bhargava
quelle