Mittlerer quadratischer Fehler und verbleibende Quadratsumme

31

Ein Blick auf die Wikipedia-Definitionen von:

Es sieht für mich so aus

MSE=1NRSS=1N(fiyi)2

wobei die Anzahl der Abtastwerte ist und unsere Schätzung von .Nfiyi

In keinem Wikipedia-Artikel wird dieser Zusammenhang jedoch erwähnt. Warum? Vermisse ich etwas?

Josh
quelle
6
Ich weiß, dass dies nicht hilfreich und feindselig erscheint, aber sie erwähnen es nicht, weil es offensichtlich ist. Außerdem möchten Sie hier ein wenig vorsichtig sein. Normalerweise, wenn Sie eine MSE in tatsächlichen empirischer Arbeit begegnen ist es nicht geteilt durch sondern geteilt durch wo die Zahl (einschließlich dem Intercept) von rechtsseitigen Variablen in einigem Regressionsmodell. RSSNRSSNKK
Bill
10
@Bill: Nun, genau diese Art von Beziehung führt normalerweise dazu, dass Artikel auf Wikipedia verlinkt werden. Ihr Standpunkt zum Freiheitsgrad zeigt auch, dass dies nicht ganz so offensichtlich und definitiv erwähnenswert ist.
bluenote10
2
@Bill: Einverstanden, jedoch ist die Offensichtlichkeit sehr subjektiv. Die Grauzone Statistik / Maschinelles Lernen ist mit Notationshölle übersät und daher ist es gut, explizit zu sein.
rnoodle

Antworten:

30

Tatsächlich wird es im Abschnitt "Regression" des mittleren quadratischen Fehlers in Wikipedia erwähnt:

In der Regressionsanalyse wird der Begriff mittlerer quadratischer Fehler manchmal verwendet, um sich auf die unverzerrte Schätzung der Fehlervarianz zu beziehen: die verbleibende Summe der Quadrate geteilt durch die Anzahl der Freiheitsgrade.

Einige Informationen finden Sie auch hier: Fehler und Residuen in der Statistik Der Ausdruck Mean Squared Error kann in verschiedenen Fällen unterschiedliche Bedeutungen haben, was manchmal schwierig ist.

whenov
quelle
4

Beachten Sie jedoch, dass die Summe der Fehlerquadrate (SSE) und die Restquadratsumme (RSS) manchmal austauschbar verwendet werden, wodurch die Leser verwirrt werden. Überprüfen Sie beispielsweise diese URL: https://365datascience.com/sum-squares/, um weitere Informationen zur linearen Regression zu erhalten.

Genau genommen sind Fehler und Rückstände statistisch gesehen völlig unterschiedliche Konzepte. Fehler beziehen sich hauptsächlich auf Unterschiede zwischen den tatsächlich beobachteten Stichprobenwerten und den von Ihnen vorhergesagten Werten und werden hauptsächlich in statistischen Metriken wie Root Means Squared Errors (RMSE) und Mean Absollute Errors (MAE) verwendet. Im Gegensatz dazu beziehen sich Residuen ausschließlich auf die Unterschiede zwischen abhängigen Variablen und Schätzungen aus der linearen Regression.

Dr.CYY
quelle
0

Ich denke nicht, dass dies hier richtig ist, wenn wir MSE als die Quadratur von RMSE betrachten. Sie haben beispielsweise eine Reihe von Stichprobendaten zu Vorhersagen und Beobachtungen und versuchen nun, eine lineare Regression durchzuführen: Beobachtung (O) = a + b X Vorhersage (P). In diesem Fall ist die MSE die Summe der quadratischen Differenz zwischen O und P und dividiert durch die Stichprobengröße N.

Wenn Sie jedoch die Leistung der linearen Regression messen möchten, müssen Sie das mittlere quadratische Residuum (MSR) berechnen. In demselben Fall würde zunächst die Residualsumme der Quadrate (RSS) berechnet, die der Summe der quadrierten Differenzen zwischen tatsächlichen Beobachtungswerten und vorhergesagten Beobachtungen entspricht, die aus der linearen Regression abgeleitet wurden. Anschließend wird RSS durch N-2 bis dividiert MSR erhalten.

Einfach ausgedrückt, in diesem Beispiel kann die MSE nicht mit RSS / N geschätzt werden, da die RSS-Komponente für die zur Berechnung der MSE verwendete Komponente nicht mehr identisch ist.

Dr.CYY
quelle
1
Ich verstehe diese Antwort nicht.
Michael R. Chernick
Schauen Sie, basierend auf dem erwähnten Beispiel der abgetasteten Vorhersage und den beobachteten Datenwerten, die lineare Regression an: Beobachtung (O) = a + b X Vorhersage (P) (a, b sind Achsenabschnitt bzw. Steigung). In diesem Fall ist MSE = Σ (OP) ^ 2 / n, wobei Σ (OP) ^ 2 die Summe der Fehlerquadrate (SSE) und n die Stichprobengröße ist. Die mittleren quadratischen Reste (MSR) = = (OO´) ^ 2 / n-2, wobei Σ (OO´) ^ 2 der Restsumme der Quadrate (RSS) entspricht und O` = a + b X P. MSR und RSS werden hauptsächlich zum Testen der Gesamtsignifikanz der linearen Regression verwendet. Beachten Sie auch SSE = Systematic Erros (SE) + RSS, wobei SE = Σ (PO´) ^ 2
Dr.CYY