Im einfachen linearen Regressionsfall können Sie den Schätzer für kleinste Quadrate , sodass Sie nicht kennen müssen, um \ hat \ beta_1 zu schätzen
Angenommen, ich habe . Wie kann ich \ hat \ beta_1 ableiten, ohne \ hat \ beta_2 zu schätzen ? oder geht das nicht
Antworten:
Die Ableitung in Matrixnotation
Ausgehend von , was eigentlich genau so ist wiey=Xb+ϵ
Alles läuft darauf hinaus, zu minimieren :e′e
Das Minimieren von gibt uns also:e′e′
e ' e = ( y - X b ) ' ( y - X b )minb e′e=(y−Xb)′(y−Xb)
Eine letzte mathematische Sache, die Bedingung zweiter Ordnung für ein Minimum, erfordert, dass die Matrix positiv definit ist. Diese Voraussetzung ist erfüllt, wenn den vollen Rang hat.X′X X
Die genauere Ableitung, die alle Schritte in größerer Tiefe durchläuft, finden Sie unter http://economictheoryblog.com/2015/02/19/ols_estimator/
quelle
*
nicht a sein+
? Sollte es nicht auchEs ist möglich, nur einen Koeffizienten in einer Mehrfachregression zu schätzen, ohne die anderen zu schätzen.
Die Schätzung vonβ1 wird erhalten, indem die Effekte von x2 aus den anderen Variablen entfernt werden und dann die Residuen von y gegen die Residuen von x1 . Dies wird erklärt und veranschaulicht. Wie genau steuert man für andere Variablen? und Wie wird (a) der Regressionskoeffizient normalisiert? . Das Schöne an diesem Ansatz ist, dass es keinen Kalkül und keine lineare Algebra erfordert, nur mit zweidimensionaler Geometrie visualisiert werden kann, numerisch stabil ist und nur eine Grundidee der multiplen Regression ausnutzt: die des Herausnehmens (oder "Kontrollierens für"). ) die Auswirkungen einer einzelnen Variablen.
Im vorliegenden Fall kann die multiple Regression mit drei gewöhnlichen Regressionsschritten durchgeführt werden:
Regress auf x 2 (ohne konstanten Term!). Sei die Anpassung y = α y , 2 x 2 + δ . Die Schätzung ist α y , 2 = Σ i y i x 2 iy x2 y=αy,2x2+δ Daher sind die Residuenδ=y-αy,2x2. Geometrisch istδdas, was vonyübrig bleibt,nachdem seine Projektion aufx2subtrahiert wurde.
Regresse auf x 2 (ohne konstanten Term). Die Anpassung sei x 1 = α 1 , 2 × 2 + γ . Die Schätzung ist α 1 , 2 = Σ i x 1 i x 2 ix1 x2 x1=α1,2x2+γ Die Residuen sindγ=x1-α1,2x2. Geometrisch istγdas, was vonx1übrig bleibt,nachdem seine Projektion aufx2subtrahiert wurde.
Regresse auf γ (ohne konstanten Term). Die Schätzung ist β 1 = Σ i δ i γ iδ γ Die Passung wirdδ= β 1γ+ε. Geometrisch ß 1die Komponente istδ(was bedeutetymitx2in der herausgenommen)γRichtung (das bedeutetx1mitx2entnommen).
Beachten Sie, dass nicht geschätzt wurde.β2 Es kann leicht aus gestellt werden , was bisher erreicht worden ist (wie β 0 im normalen Regressions Fall ist leicht von der Steigungsschätzung erhaltenen β 1 ). Die ε sind die Residuen für die bivariate Regression von y auf x 1 und x 2 .β^0 β^1 ε y x1 x2
Die Parallele zur gewöhnlichen Regression ist stark: Die Schritte (1) und (2) sind Analoga zum Subtrahieren der Mittelwerte in der üblichen Formel. Wenn Sie ein Vektor von Einsen sein lassen, werden Sie in der Tat die übliche Formel wiederherstellen.x2
Diese generalizes in der offensichtlichen Weise zur Regression mit mehr als zwei Variablen: abzuschätzen β 1 , Regress y und x 1 separat gegen alle anderen Variablen, dann bilden sich ihre Residuen gegeneinander an. Zu diesem Zeitpunkt wurde noch keiner der anderen Koeffizienten in der multiplen Regression von y geschätzt.β^1 y x1 y
quelle
Die gewöhnliche Schätzung der kleinsten Quadrate von ist eine lineare Funktion der Antwortvariablenβ . Einfach ausgedrückt, die OLS-Schätzung der Koeffizienten, die , kann nur unter Verwendung der abhängigen Variablen ( Y i 's) und der unabhängigen Variablen ( X k i ' s) geschrieben werden.β Yi Xki
To explain this fact for a general regression model, you need to understand a little linear algebra. Suppose you would like to estimate the coefficients(β0,β1,...,βk) in a multiple regression model,
assuming that the inverse(X′X)−1 exists. The estimated coefficients are functions of the data, not of the other estimated coefficients.
quelle
One small minor note on theory vs. practice. Mathematicallyβ0,β1,β2...βn can be estimated with the following formula:
whereX is the original input data and Y is the variable that we want to estimate. This follows from minimizing the error. I will proove this before making a small practical point.
Letei be the error the linear regression makes at point i . Then:
The total squared error we make is now:
Because we have a linear model we know that:
Which can be rewritten in matrix notation as:
We know that
We want to minimize the total square error, such that the following expression should be as small as possible
This is equal to:
The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.
We want to find the values ofβ such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.
This gives:
Such that finally:
So mathematically we seem to have found a solution. There is one problem though, and that is that(X′X)−1 is very hard to calculate if the matrix X is very very large. This might give numerical accuracy issues. Another way to find the optimal values for β in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.
quelle
A simple derivation can be done just by using the geometric interpretation of LR.
Linear regression can be interpreted as the projection ofY onto the column space X . Thus, the error, ϵ^ is orthogonal to the column space of X .
Therefore, the inner product betweenX′ and the error must be 0, i.e.,
Which implies that,
Now the same can be done by:
(1) ProjectingY onto X2 (error δ=Y−X2D^ ), D^=(X′2X2)−1X′2y ,
(2) ProjectingX1 onto X2 (error γ=X1−X2G^ ), G^=(X′1X1)−1X1X2 ,
and finally,
(3) Projectingδ onto γ , β^1
quelle