Wie werden Koeffizientenstandardfehler in der linearen Regression interpretiert?

26

Ich frage mich, wie man die Koeffizienten-Standardfehler einer Regression interpretiert, wenn man die Anzeigefunktion in R verwendet.

Zum Beispiel in der folgenden Ausgabe:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Bedeutet ein höherer Standardfehler eine größere Bedeutung?

Auch für die verbleibende Standardabweichung bedeutet ein höherer Wert eine größere Streuung, aber das Quadrat R zeigt eine sehr enge Übereinstimmung. Ist dies nicht ein Widerspruch?

hoch oben
quelle

Antworten:

52

Parameterschätzungen wie ein Stichprobenmittelwert oder ein OLS-Regressionskoeffizient sind Stichprobenstatistiken, anhand derer Rückschlüsse auf die entsprechenden Populationsparameter gezogen werden. Die Populationsparameter sind das, worum wir uns wirklich kümmern, aber da wir keinen Zugriff auf die gesamte Population haben (normalerweise wird angenommen, dass sie unendlich ist), müssen wir stattdessen diesen Ansatz verwenden. Es gibt jedoch einige unangenehme Tatsachen, die mit diesem Ansatz einhergehen. Wenn wir zum Beispiel eine andere Stichprobe nehmen und die Statistik berechnen, um den Parameter erneut zu schätzen, stellen wir mit ziemlicher Sicherheit fest, dass er sich unterscheidet. Darüber hinaus ist es unwahrscheinlich, dass keine Schätzung dem tatsächlichen Parameterwert entspricht, den wir wissen möchten. In der Tat, wenn wir dies immer und immer wieder taten, weiterhin für immer zu probieren und zu schätzen, Wir würden feststellen, dass die relative Häufigkeit der verschiedenen Schätzwerte einer Wahrscheinlichkeitsverteilung folgte. Der zentrale Grenzwertsatz legt nahe, dass diese Verteilung wahrscheinlich normal ist. Wir brauchen einen Weg, um das Ausmaß der Unsicherheit in dieser Verteilung zu quantifizieren. Das macht der Standardfehler für Sie.

In Ihrem Beispiel möchten Sie die Steigung der linearen Beziehung zwischen x1 und y in der Grundgesamtheit kennen, haben jedoch nur Zugriff auf Ihre Stichprobe. In Ihrer Stichprobe beträgt diese Steigung .51, aber ohne zu wissen, wie variabel die entsprechende Stichprobenverteilung ist , ist es schwierig zu wissen, was aus dieser Zahl zu machen ist. Der Standardfehler, in diesem Fall .05, ist die Standardabweichung dieser Stichprobenverteilung. Um die Signifikanz zu berechnen, dividieren Sie die Schätzung durch die SE und schlagen den Quotienten in der Tabelle nach. Somit bedeuten größere SEs eine geringere Signifikanz.

Die verbleibende Standardabweichung hat nichts mit den Stichprobenverteilungen Ihrer Pisten zu tun. Dies ist nur die Standardabweichung Ihrer Stichprobe, die von Ihrem Modell abhängig ist. Es gibt keinen Widerspruch und es könnte auch keinen geben. Wenn Sie eine größere SD mit einem hohen R ^ 2 und nur 40 Datenpunkten haben, haben Sie vermutlich das Gegenteil einer Bereichsbeschränkung: Ihre x-Werte sind sehr weit verbreitet.

gung - Wiedereinsetzung von Monica
quelle
Ausgezeichnete und sehr klare Antwort! Grundsätzlich bedeutet SD für die zweite Frage horizontale Streuung und R ^ 2 die Gesamtanpassung oder vertikale Streuung?
Über dem
7
@ Dbr, gerne helfen. Normalerweise stellen wir uns die Antwortvariable auf der vertikalen Achse und die Prädiktorvariable auf der horizontalen Achse vor. Bei dieser Konfiguration ist alles vertikal - durch die Regression werden die vertikalen Abstände zwischen den Vorhersagen und der Antwortvariablen (SSE) minimiert. Ebenso ist die verbleibende SD ein Maß für die vertikale Streuung, nachdem die vorhergesagten Werte berücksichtigt wurden. Schließlich ist R ^ 2 das Verhältnis der vertikalen Streuung Ihrer Vorhersagen zur gesamten vertikalen Streuung Ihrer Rohdaten.
gung - Wiedereinsetzung von Monica