Ich bin überrascht, dass dies noch nicht gestellt wurde, aber ich kann die Frage nicht auf stats.stackexchange finden.
Dies ist die Formel zur Berechnung der Varianz einer normalverteilten Stichprobe:
Dies ist die Formel zur Berechnung des mittleren quadratischen Fehlers von Beobachtungen in einer einfachen linearen Regression:
Was ist der Unterschied zwischen diesen beiden Formeln? Der einzige Unterschied, den ich sehen kann, ist, dass MSE . Wenn dies der einzige Unterschied ist, warum nicht beide als Varianz bezeichnen, aber mit unterschiedlichen Freiheitsgraden?
Antworten:
Der mittlere quadratische Fehler, wie Sie ihn für OLS geschrieben haben, verbirgt etwas:
Beachten Sie, dass der Zähler über eine Funktion vony und x summiert , sodass Sie für jede Variable einen Freiheitsgrad verlieren, also n−2 . In der Formel für die Stichprobenvarianz ist der Zähler eine Funktion einer einzelnen Variablen, sodass Sie im Nenner nur einen Freiheitsgrad verlieren.
Sie sind jedoch auf dem richtigen Weg zu bemerken, dass dies konzeptionell ähnliche Mengen sind. Die Stichprobenvarianz misst die Streuung der Daten um den Stichprobenmittelwert (in quadratischen Einheiten), während die MSE die vertikale Streuung der Daten um die Stichprobenregressionslinie (in quadratischen vertikalen Einheiten) misst.
quelle
quelle