Ich habe eine Stichprobe von Datenpunkten aus einer Population entnommen . Jeder dieser Punkte hat einen wahren Wert (bekannt aus der Grundwahrheit) und einen geschätzten Wert. Ich berechne dann den Fehler für jeden abgetasteten Punkt und berechne dann den RMSE der Probe.
Wie kann ich dann basierend auf der Stichprobengröße eine Art Konfidenzintervall um diesen RMSE ableiten ?
Wenn ich den Mittelwert anstelle des RMSE verwenden würde, hätte ich kein Problem damit, da ich die Standardgleichung verwenden kann
aber ich weiß nicht, ob dies für RMSE und nicht für den Mittelwert gilt. Kann ich das irgendwie anpassen?
(Ich habe diese Frage gesehen , habe aber keine Probleme damit, ob meine Bevölkerung normalverteilt ist. Darum geht es in der Antwort dort.)
quelle
Antworten:
Mit einer ähnlichen Begründung wie hier kann ich unter bestimmten Umständen eine Antwort auf Ihre Frage geben.
Let Ihr wahrer Wert für die seine i t h Datenpunkt und x i den geschätzten Wert. Wenn wir davon ausgehen, dass die Unterschiede zwischen den geschätzten und wahren Werten habenxi ith x^i
Mittelwert Null (dh die x i verteilt werden um x i )x^i xi
einer Normalverteilung folgen
und alle haben die gleiche Standardabweichungσ
Zusamenfassend:
dann willst du wirklich ein Konfidenzintervall für .σ
Wenn die obigen Annahmen zutreffen, gilt folgt einerχ 2 n- Verteilung mitn(nichtn-1) Freiheitsgraden. Das heisst
Hier ist ein Python-Programm, das Ihre Situation simuliert
Hoffentlich hilft das.
If you are not sure whether the assumptions apply or if you want to compare what I wrote to a different method, you could always try bootstrapping.
quelle
The reasoning in the answer by fabee seems correct if applied to the STDE (standard deviation of the error), not the RMSE. Using similar nomenclature,i=1,…,n is an index representing each record of data, xi is the true value and x^i is a measurement or prediction.
The errorϵi , BIAS, MSE (mean squared error) and RMSE are given by:
Agreeing on these definitions, the BIAS corresponds to the sample mean ofϵ , but MSE is not the biased sample variance. Instead:
Thus, in my opinion the confidence intervals established by fabee refer to the sample standard deviation ofϵ , STDE. Similarly, confidence intervals may be established for the BIAS based on the z-score (or t-score if n<30 ) and STDE/n−−√ .
quelle
Following Faaber 1999, the uncertainty of RMSE is given as
quelle