Warum nimmt die Summe der quadratischen Residuen beim Hinzufügen einer erklärenden Variablen nicht zu?

9

In meinem ökonometrischen Lehrbuch (Introductory Econometrics) über OLS schreibt der Autor: "SSR muss fallen, wenn eine weitere erklärende Variable hinzugefügt wird." Warum ist es?

Eric Xu
quelle
1
Im Wesentlichen, weil die SSR gleich bleibt, wenn es überhaupt keine lineare Beziehung zur nächsten Variablen gibt (partielle Korrelation mit 0 Stichproben). Wenn überhaupt eine Beziehung besteht, kann die nächste Variable verwendet werden, um die SSR zu reduzieren.
Glen_b -Rate State Monica
3
Die Aussage ist im Geiste korrekt, aber nicht ganz richtig: SSR bleibt beim Hinzufügen einer Variablen, die eine lineare Kombination der vorhandenen Variablen ist, gleich (und fällt nicht ab). Wenn Sie die neue Variable ignorieren, können Sie schließlich den gleichen SSR-Mindestwert erreichen, den Sie mit der alten Variablen erreicht haben. Das Hinzufügen einer neuen Variablen kann die Situation also niemals verschlimmern.
whuber
Ich habe hier eine ähnliche Frage beantwortet: stats.stackexchange.com/questions/306267/… . Sie können es nützlich finden.
Josh

Antworten:

18

Angenommen, Sie haben ein lineares Regressionsmodell, betrachten Sie zur einfachen Notation zuerst eine und dann zwei Kovariablen. Dies verallgemeinert sich auf zwei Sätze von Kovariablen. Das erste Modell ist das zweite Modell ist Dies wird durch Minimieren der Summe der quadratischen Residuen gelöst. Für Modell eins möchten wir und für Modell zwei, das Sie möchten, minimieren minimiere . Nehmen wir an, Sie haben die richtigen Schätzer für Modell 1 gefunden. Dann können Sie genau dieselben Restsummenquadrate in Modell 2 erhalten, indem Sie dieselben Werte für auswählen

I:yi=β0+β1x1i+ϵi
II:yi=β0+β1x1i+β2x2i+ϵi
SSR1=i(yiβ0β1x1i)2SSR2=i(yiβ0β1x1iβ2x2i)2β0,β1 und . Jetzt können Sie möglicherweise einen Rest der unteren Summenquadrate finden, indem Sie nach einem besseren Wert für suchen .β2=0β2

Zusammenfassend sind die Modelle in dem Sinne verschachtelt, dass alles, was wir mit Modell 1 modellieren können, mit Modell zwei übereinstimmen kann. Modell zwei ist allgemeiner als Modell 1. Bei der Optimierung haben wir also größere Freiheit mit Modell zwei finde immer eine bessere Lösung.

Dies hat wirklich nichts mit Statistik zu tun, sondern ist eine allgemeine Tatsache über die Optimierung.

kjetil b halvorsen
quelle
1
Habe nicht so gedacht, wirklich hilfreich!
Eric Xu
1

SSR ist ein Maß für die Diskrepanz zwischen den Daten und einem Schätzmodell.

Wenn Sie die Option haben, eine andere Variable zu berücksichtigen, und wenn diese Variable mehr Informationen enthält, ist die Anpassung natürlich enger, was eine niedrigere SSR bedeutet.

Cloud Skywalker
quelle