Wie kann der Least Square Estimator für die multiple lineare Regression abgeleitet werden?

30

Im einfachen linearen Regressionsfall können Sie den Schätzer für kleinste Quadrate , sodass Sie nicht kennen müssen, um \ hat \ beta_1 zu schätzeny=β0+β1xβ^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

Angenommen, ich habe y=β1x1+β2x2 . Wie kann ich \ hat \ beta_1 ableiten, β^1ohne \ hat \ beta_2 zu schätzen β^2? oder geht das nicht

Sabre CN
quelle
1
Sie können eine der Variablen weglassen und trotzdem eine unvoreingenommene Schätzung der anderen erhalten, wenn sie unabhängig sind.
David25272

Antworten:

51

Die Ableitung in Matrixnotation

Ausgehend von , was eigentlich genau so ist wiey=Xb+ϵ

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

Alles läuft darauf hinaus, zu minimieren :ee

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

Das Minimieren von gibt uns also:ee

e ' e = ( y - X b ) ' ( y - X b )minb ee=(yXb)(yXb)

minb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

Eine letzte mathematische Sache, die Bedingung zweiter Ordnung für ein Minimum, erfordert, dass die Matrix positiv definit ist. Diese Voraussetzung ist erfüllt, wenn den vollen Rang hat.XXX

Die genauere Ableitung, die alle Schritte in größerer Tiefe durchläuft, finden Sie unter http://economictheoryblog.com/2015/02/19/ols_estimator/

Andreas Dibiasi
quelle
3
Diese Herleitung ist genau das, wonach ich gesucht habe. Keine übersprungenen Schritte. Erstaunlich, wie schwer es ist, dasselbe zu finden.
Javadba
1
Sollte in der Matrixgleichung die zweite *nicht a sein +? Sollte es nicht auch bK anstelle von bN , damit die Abmessungen übereinstimmen?
Alexis Olson
Alexis Olson, du hast recht! Ich habe meine Antwort bearbeitet.
Andreas Dibiasi
13

Es ist möglich, nur einen Koeffizienten in einer Mehrfachregression zu schätzen, ohne die anderen zu schätzen.

Die Schätzung von β1 wird erhalten, indem die Effekte von x2 aus den anderen Variablen entfernt werden und dann die Residuen von y gegen die Residuen von x1 . Dies wird erklärt und veranschaulicht. Wie genau steuert man für andere Variablen? und Wie wird (a) der Regressionskoeffizient normalisiert? . Das Schöne an diesem Ansatz ist, dass es keinen Kalkül und keine lineare Algebra erfordert, nur mit zweidimensionaler Geometrie visualisiert werden kann, numerisch stabil ist und nur eine Grundidee der multiplen Regression ausnutzt: die des Herausnehmens (oder "Kontrollierens für"). ) die Auswirkungen einer einzelnen Variablen.


Im vorliegenden Fall kann die multiple Regression mit drei gewöhnlichen Regressionsschritten durchgeführt werden:

  1. Regress auf x 2 (ohne konstanten Term!). Sei die Anpassung y = α y , 2 x 2 + δ . Die Schätzung ist α y , 2 = Σ i y i x 2 iyx2y=αy,2x2+δ Daher sind die Residuenδ=y-αy,2x2. Geometrisch istδdas, was vonyübrig bleibt,nachdem seine Projektion aufx2subtrahiert wurde.

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. Regresse auf x 2 (ohne konstanten Term). Die Anpassung sei x 1 = α 1 , 2 × 2 + γ . Die Schätzung ist α 1 , 2 = Σ i x 1 i x 2 ix1x2x1=α1,2x2+γDie Residuen sindγ=x1-α1,2x2. Geometrisch istγdas, was vonx1übrig bleibt,nachdem seine Projektion aufx2subtrahiert wurde.

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. Regresse auf γ (ohne konstanten Term). Die Schätzung ist β 1 = Σ i δ i γ iδγDie Passung wirdδ= β 1γ+ε. Geometrisch ß 1die Komponente istδ(was bedeutetymitx2in der herausgenommen)γRichtung (das bedeutetx1mitx2entnommen).

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

Beachten Sie, dass nicht geschätzt wurde. β2 Es kann leicht aus gestellt werden , was bisher erreicht worden ist (wie β 0 im normalen Regressions Fall ist leicht von der Steigungsschätzung erhaltenen β 1 ). Die ε sind die Residuen für die bivariate Regression von y auf x 1 und x 2 .β^0β^1εyx1x2

Die Parallele zur gewöhnlichen Regression ist stark: Die Schritte (1) und (2) sind Analoga zum Subtrahieren der Mittelwerte in der üblichen Formel. Wenn Sie ein Vektor von Einsen sein lassen, werden Sie in der Tat die übliche Formel wiederherstellen.x2

Diese generalizes in der offensichtlichen Weise zur Regression mit mehr als zwei Variablen: abzuschätzen β 1 , Regress y und x 1 separat gegen alle anderen Variablen, dann bilden sich ihre Residuen gegeneinander an. Zu diesem Zeitpunkt wurde noch keiner der anderen Koeffizienten in der multiplen Regression von y geschätzt.β^1yx1y

whuber
quelle
1
Gute
4

Die gewöhnliche Schätzung der kleinsten Quadrate von ist eine lineare Funktion der Antwortvariablenβ . Einfach ausgedrückt, die OLS-Schätzung der Koeffizienten, die , kann nur unter Verwendung der abhängigen Variablen ( Y i 's) und der unabhängigen Variablen ( X k i ' s) geschrieben werden.βYiXki

To explain this fact for a general regression model, you need to understand a little linear algebra. Suppose you would like to estimate the coefficients (β0,β1,...,βk) in a multiple regression model,

Yi=β0+β1X1i+...+βkXki+ϵi

ϵiiidN(0,σ2)i=1,...,nX is a n×k matrix where each column contains the n observations of the kth dependent variable Xk. You can find many explanations and derivations here of the formula used to calculate the estimated coefficients β^=(β^0,β^1,...,β^k), which is

β^=(XX)1XY

assuming that the inverse (XX)1 exists. The estimated coefficients are functions of the data, not of the other estimated coefficients.

caburke
quelle
I have a follow up question, on the simple regression case, you make yi=β0+β1x¯+β1(xix¯)+ei then X becomes a matrix of (1,...,1) and (x1x¯,...,xnx¯), then follow through the β^=(XX)(1)XY. How should I rewrite the equation in my case?
Saber CN
And 1 more question, does this apply to cases where x1 and x2 are not linear, but the model is still linear? For example the decay curve y=β1ex1t+β2ex2t, can I substitute the exponential with x1 and x2so it becomes my original question?
Saber CN
In your first comment, you can center the variable (subtract its mean from it) and use that is your independent variable. Search for "standardized regression". The formula you wrote in terms of matrices is not correct. For your second question, yes you may do that, a linear model is one that is linear in β, so as long as y equal to a linear combination of β's you are fine.
caburke
2
(+1). But shouldn't it be "n×k matrix" instead of k×n?
miura
3

One small minor note on theory vs. practice. Mathematically β0,β1,β2...βn can be estimated with the following formula:

β^=(XX)1XY

where X is the original input data and Y is the variable that we want to estimate. This follows from minimizing the error. I will proove this before making a small practical point.

Let ei be the error the linear regression makes at point i. Then:

ei=yiyi^

The total squared error we make is now:

i=1nei2=i=1n(yiyi^)2

Because we have a linear model we know that:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Which can be rewritten in matrix notation as:

Y^=Xβ

We know that

i=1nei2=EE

We want to minimize the total square error, such that the following expression should be as small as possible

EE=(YY^)(YY^)

This is equal to:

EE=(YXβ)(YXβ)

The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.

We want to find the values of β such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.

dEEdβ=2XY+2XXβ=0

This gives:

XXβ=XY

Such that finally:

β=(XX)1XY

So mathematically we seem to have found a solution. There is one problem though, and that is that (XX)1 is very hard to calculate if the matrix X is very very large. This might give numerical accuracy issues. Another way to find the optimal values for β in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.

Vincent Warmerdam
quelle
except that you don't actually need to compute (XX)1...
user603
valid point. one could also use the gram schmidt process, but I just wanted to remark that finding the optimal values for the β vector can also be done numerically because of the convexity.
Vincent Warmerdam
2

A simple derivation can be done just by using the geometric interpretation of LR.

Linear regression can be interpreted as the projection of Y onto the column space X. Thus, the error, ϵ^ is orthogonal to the column space of X.

Therefore, the inner product between X and the error must be 0, i.e.,

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

Which implies that,

(XX)1Xy=β^.

Now the same can be done by:

(1) Projecting Y onto X2 (error δ=YX2D^), D^=(X2X2)1X2y,

(2) Projecting X1 onto X2 (error γ=X1X2G^), G^=(X1X1)1X1X2,

and finally,

(3) Projecting δ onto γ, β^1

enter image description here

Dnaiel
quelle