- Root Mean Square Error
- Restsumme der Quadrate
- Reststandardfehler
- mittlere quadratische Fehler
- Testfehler
Ich dachte, ich hätte diese Begriffe verstanden, aber je mehr ich statistische Probleme habe, desto mehr bin ich verwirrt, wo ich mich selbst errate. Ich hätte gerne eine Bestätigung und ein konkretes Beispiel
Ich kann die Gleichungen online leicht genug finden, aber ich habe Probleme, eine Erklärung dieser Begriffe zu bekommen, so dass ich die Unterschiede und die Art und Weise, wie sie zu einander führen, in meinem Kopf kristallisieren kann.
Wenn jemand diesen Code unten nehmen und darauf hinweisen kann, wie ich jeden dieser Begriffe berechnen würde, würde ich es begrüßen. R-Code wäre toll ..
Mit diesem Beispiel unten:
summary(lm(mpg~hp, data=mtcars))
Zeigen Sie mir im R-Code, wie ich finde:
rmse = ____
rss = ____
residual_standard_error = ______ # i know its there but need understanding
mean_squared_error = _______
test_error = ________
Bonuspunkte für die Erklärung, wie ich 5 bin, der Unterschiede / Ähnlichkeiten zwischen diesen. Beispiel:
rmse = squareroot(mss)
quelle
Antworten:
Wie gewünscht illustriere ich anhand einer einfachen Regression anhand der
mtcars
Daten:Der mittlere quadratische Fehler (MSE) ist der Mittelwert aus dem Quadrat der Residuen:
Root Mean Squared Error (RMSE) ist dann die Quadratwurzel von MSE:
Die Restsumme der Quadrate (RSS) ist die Summe der quadratischen Residuen:
Der Residual Standard Error (RSE) ist die Quadratwurzel von (RSS / Freiheitsgrade):
Dieselbe Berechnung, vereinfacht, weil wir zuvor berechnet haben
rss
:Der Begriff Testfehler im Kontext der Regression (und anderer prädiktiver Analysetechniken) bezieht sich normalerweise auf die Berechnung einer Teststatistik für Testdaten, die sich von Ihren Trainingsdaten unterscheidet.
Mit anderen Worten, Sie schätzen ein Modell anhand eines Teils Ihrer Daten (häufig einer Stichprobe von 80%) und berechnen dann den Fehler anhand der Hold-out-Stichprobe. Ich illustriere
mtcars
diesmal die Verwendung mit einer Stichprobe von 80%Schätzen Sie das Modell ab und sagen Sie es dann mit den Daten für das Aussetzen voraus:
Kombinieren Sie die Originaldaten und die Vorhersage in einem Datenrahmen
Berechnen Sie nun Ihre Teststatistik wie gewohnt. Ich illustriere MSE und RMSE:
Beachten Sie, dass diese Antwort die Gewichtung der Beobachtungen ignoriert.
quelle
Auf dem Originalplakat wurde nach einer Antwort "Erkläre wie ich 5 bin" gefragt. Angenommen, Ihr Schullehrer lädt Sie und Ihre Mitschüler ein, die Tischbreite des Lehrers zu erraten. Jeder der 20 Schüler in der Klasse kann ein Gerät (Lineal, Skala, Maßband oder Maßstab) auswählen und darf den Tisch 10 Mal messen. Sie alle werden gebeten, unterschiedliche Startpositionen auf dem Gerät zu verwenden, um zu vermeiden, dass dieselbe Nummer immer wieder gelesen wird. Der Anfangsmesswert muss dann vom Endmesswert subtrahiert werden, um schließlich eine Breitenmessung zu erhalten (Sie haben kürzlich gelernt, wie diese Art von Mathematik funktioniert).
Insgesamt wurden 200 Breitenmessungen in der Klasse durchgeführt (20 Schüler, je 10 Messungen). Die Beobachtungen werden dem Lehrer übergeben, der die Zahlen zusammenstellt. Das Subtrahieren der Beobachtungen jedes Schülers von einem Referenzwert führt zu weiteren 200 Zahlen, Abweichungen genannt . Die Lehrer mitteln jeden Schüler getrennt Probe zu erhalten 20 Mittel . Das Subtrahieren der Beobachtungen jedes Schülers von seinem individuellen Mittelwert führt zu 200 Abweichungen vom Mittelwert, die als Residuen bezeichnet werden . Wenn der Mittelwert der Residuen für jede Stichprobe berechnet würde, würde man feststellen, dass er immer Null ist. Wenn wir stattdessen jedes Residuum quadrieren, den Durchschnitt bilden und schließlich das Quadrat aufheben, erhalten wir die Standardabweichung. (Übrigens nennen wir dieses letzte Berechnungsbit die Quadratwurzel (denken Sie daran, die Basis oder Seite eines gegebenen Quadrats zu finden), so dass die gesamte Operation oft kurz als Root-Mean-Square bezeichnet wird , wobei die Standardabweichung der Beobachtungen gleich ist das quadratische Mittel der Residuen.)
Aber der Lehrer kannte die wahre Tischbreite bereits, basierend darauf, wie sie in der Fabrik entworfen, gebaut und geprüft wurde. So können weitere 200 als Fehler bezeichnete Zahlen als Abweichung der Beobachtungen von der tatsächlichen Breite berechnet werden. Für jede Schülerstichprobe kann ein mittlerer Fehler berechnet werden. Ebenso können 20 Standardabweichungen des Fehlers oder Standardfehler für die Beobachtungen berechnet werden. Weitere 20 Root-Mean-Square-FehlerWerte können ebenfalls berechnet werden. Die drei Sätze von 20 Werten werden in der Reihenfolge ihres Auftretens als sqrt (me ^ 2 + se ^ 2) = rmse in Beziehung gesetzt. Anhand von rmse kann der Lehrer beurteilen, von wem der Schüler die beste Schätzung für die Tischbreite erhalten hat. Durch eine getrennte Betrachtung der 20 mittleren Fehler und 20 Standardfehlerwerte kann der Lehrer jeden Schüler anweisen, wie er seine Messwerte verbessern kann.
Zur Überprüfung subtrahierte der Lehrer jeden Fehler von seinem jeweiligen mittleren Fehler, was zu weiteren 200 Zahlen führte, die wir als Restfehler bezeichnen (was nicht oft gemacht wird). Wie oben ist der mittlere Restfehler Null, daher ist die Standardabweichung der Restfehler oder der Standardrestfehler dieselbe wie der Standardfehler , und tatsächlich ist dies auch der quadratische Mittelwert-Restfehler . (Siehe unten für Details.)
Jetzt ist hier etwas von Interesse für den Lehrer. Wir können den Mittelwert jedes Schülers mit dem Rest der Klasse vergleichen (20 Mittelwerte insgesamt). Genau wie wir vor diesen Punktwerten definiert haben:
wir können jetzt auch definieren:
Nur wenn die Klasse der Schüler als unvoreingenommen gilt, dh wenn mem = 0, dann ist sem = sm = rmsem; dh der Standardfehler des Mittelwerts, die Standardabweichung des Mittelwerts und der quadratische Mittelwertfehler können gleich sein, vorausgesetzt, der Mittelwertfehler des Mittelwerts ist Null.
Wenn wir nur eine Stichprobe genommen hätten, dh wenn nur ein Schüler in der Klasse wäre, könnte die Standardabweichung der Beobachtungen verwendet werden, um die Standardabweichung des Mittelwerts (sm) als sm ^ 2 ~ s ^ zu schätzen 2 / n, wobei n = 10 die Stichprobengröße ist (die Anzahl der Lesungen pro Schüler). Die beiden stimmen besser überein, wenn die Stichprobengröße (n = 10,11, ...; mehr Messwerte pro Schüler) und die Anzahl der Stichproben (n '= 20,21, ...; mehr Schüler in der Klasse) zunimmt. (Eine Einschränkung: Ein nicht qualifizierter "Standardfehler" bezieht sich häufiger auf den Standardfehler des Mittelwerts und nicht auf den Standardfehler der Beobachtungen.)
Hier einige Details zu den Berechnungen. Der wahre Wert wird mit t bezeichnet.
Set-to-Point-Operationen:
INTRA-SAMPLE SETS:
INTRA-SAMPLE-PUNKTE (siehe Tabelle 1):
INTER-SAMPLE (ENSEMBLE) SETS:
INTER-SAMPLE (ENSEMBLE) -PUNKTE (siehe Tabelle 2):
quelle
Ich finde auch alle Begriffe sehr verwirrend. Ich bin der festen Überzeugung, dass es notwendig ist, zu erklären, warum wir über diese vielen Metriken verfügen.
Hier ist mein Hinweis zu SSE und RMSE:
Erste Metrik: Summe der Fehlerquadrate (SSE). Andere Namen, Restquadratsumme (RSS), Restquadratsumme (SSR).
Wenn wir in der Optimierungscommunity sind, wird SSE häufig verwendet. Es ist, weil es das Ziel bei der Optimierung ist, wo die Optimierung ist
Zweite Metrik: Root-Mean-Square-Fehler (RMSE) . Andere Namen, Abweichung vom Mittelwert der Quadrate.
RMSE ist
quelle