Was ist ein Reststandardfehler?

35

Beim Ausführen eines Mehrfachregressionsmodells in R ist eine der Ausgaben ein Reststandardfehler von 0,0589 bei 95.161 Freiheitsgraden. Ich weiß, dass die 95.161 Freiheitsgrade durch die Differenz zwischen der Anzahl der Beobachtungen in meiner Stichprobe und der Anzahl der Variablen in meinem Modell gegeben sind. Was ist der Reststandardfehler?

ustroetz
quelle
2
Diese Frage und ihre Antworten könnten helfen: Warum sagen wir Reststandardfehler?
Antoine Vernet
Eine kurze Frage: Ist "Reststandardfehler" gleich "Reststandardabweichung"? Gelman und Hill (S.41, 2007) scheinen sie synonym zu verwenden.
JetLag

Antworten:

26

Ein angepasstes Regressionsmodell verwendet die Parameter, um Punktschätzungsvorhersagen zu generieren, die als Mittel für beobachtete Antworten dienen, wenn Sie die Studie unendlich oft mit denselben Werten replizieren (und wenn das lineare Modell wahr ist). Die Differenz zwischen diesen vorhergesagten Werten und denjenigen, die zum Anpassen des Modells verwendet wurden, werden als "Residuen" bezeichnet, die beim Replizieren des Datenerfassungsprozesses Eigenschaften von Zufallsvariablen mit dem Mittelwert 0 aufweisen.X

Die beobachteten Residuen werden dann verwendet, um anschließend die Variabilität dieser Werte abzuschätzen und die Stichprobenverteilung der Parameter abzuschätzen. Wenn der verbleibende Standardfehler genau 0 ist, passt das Modell perfekt zu den Daten (wahrscheinlich aufgrund einer Überanpassung). Wenn der verbleibende Standardfehler nicht signifikant von der Variabilität der bedingungslosen Reaktion abweicht, gibt es kaum Anhaltspunkte dafür, dass das lineare Modell Vorhersagemöglichkeiten aufweist.

AdamO
quelle
3
Dies wurde möglicherweise schon einmal beantwortet. Prüfen Sie, ob diese Frage die Antworten liefert, die Sie benötigen. [Interpretation der lm () -Ausgabe von R] [1] [1]: stats.stackexchange.com/questions/5135/…
doug.numbers
26

Angenommen, wir haben die folgende ANOVA-Tabelle (angepasst aus dem example(aov)Befehl von R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Wenn Sie die Summe der Quadrate einer Variationsquelle (Modell oder Residuen) durch ihre jeweiligen Freiheitsgrade dividieren, erhalten Sie das mittlere Quadrat. Speziell für die Residuen:

306,34=76,57576,57

76,57 ist also das mittlere Quadrat der Residuen, dh der Betrag der Residuenvariation (nach Anwendung des Modells) für Ihre Antwortvariable.

76,57

Waldir Leoncio
quelle
1
Ich habe die Antwort von @AdamO positiv bewertet, da diese Antwort für mich als Person, die am häufigsten direkt Regression verwendet, am einfachsten war. Ich schätze diese Antwort jedoch, da sie die Beziehung zwischen ANOVA und linearer Regression in Bezug auf Notation, Konzept und Methodik verdeutlicht.
Svannoy
12

Y.=β0+β1X+ϵ
ϵX

β0β1ϵϵ

RSE wird in "Einführung in das statistische Lernen" ziemlich deutlich erklärt.

little_monster
quelle
2
ϵRSE=RSS(n-2)
1
Für alle, die das Epub von ISL lesen, können Sie "Seite 66" mit Strg-F "Reststandardfehler" suchen. (Epub-Dateien haben keine echten Seitenzahlen).
user2426679