Ein Blick auf die Wikipedia-Definitionen von:
- Mittlerer quadratischer Fehler (MSE)
- Restsumme der Quadrate (RSS)
Es sieht für mich so aus
wobei die Anzahl der Abtastwerte ist und unsere Schätzung von .
In keinem Wikipedia-Artikel wird dieser Zusammenhang jedoch erwähnt. Warum? Vermisse ich etwas?
Antworten:
Tatsächlich wird es im Abschnitt "Regression" des mittleren quadratischen Fehlers in Wikipedia erwähnt:
Einige Informationen finden Sie auch hier: Fehler und Residuen in der Statistik Der Ausdruck Mean Squared Error kann in verschiedenen Fällen unterschiedliche Bedeutungen haben, was manchmal schwierig ist.
quelle
Beachten Sie jedoch, dass die Summe der Fehlerquadrate (SSE) und die Restquadratsumme (RSS) manchmal austauschbar verwendet werden, wodurch die Leser verwirrt werden. Überprüfen Sie beispielsweise diese URL: https://365datascience.com/sum-squares/, um weitere Informationen zur linearen Regression zu erhalten.
Genau genommen sind Fehler und Rückstände statistisch gesehen völlig unterschiedliche Konzepte. Fehler beziehen sich hauptsächlich auf Unterschiede zwischen den tatsächlich beobachteten Stichprobenwerten und den von Ihnen vorhergesagten Werten und werden hauptsächlich in statistischen Metriken wie Root Means Squared Errors (RMSE) und Mean Absollute Errors (MAE) verwendet. Im Gegensatz dazu beziehen sich Residuen ausschließlich auf die Unterschiede zwischen abhängigen Variablen und Schätzungen aus der linearen Regression.
quelle
Ich denke nicht, dass dies hier richtig ist, wenn wir MSE als die Quadratur von RMSE betrachten. Sie haben beispielsweise eine Reihe von Stichprobendaten zu Vorhersagen und Beobachtungen und versuchen nun, eine lineare Regression durchzuführen: Beobachtung (O) = a + b X Vorhersage (P). In diesem Fall ist die MSE die Summe der quadratischen Differenz zwischen O und P und dividiert durch die Stichprobengröße N.
Wenn Sie jedoch die Leistung der linearen Regression messen möchten, müssen Sie das mittlere quadratische Residuum (MSR) berechnen. In demselben Fall würde zunächst die Residualsumme der Quadrate (RSS) berechnet, die der Summe der quadrierten Differenzen zwischen tatsächlichen Beobachtungswerten und vorhergesagten Beobachtungen entspricht, die aus der linearen Regression abgeleitet wurden. Anschließend wird RSS durch N-2 bis dividiert MSR erhalten.
Einfach ausgedrückt, in diesem Beispiel kann die MSE nicht mit RSS / N geschätzt werden, da die RSS-Komponente für die zur Berechnung der MSE verwendete Komponente nicht mehr identisch ist.
quelle