Intuition hinter in geschlossener Form von w in der linearen Regression

10

Die geschlossene Form von w in der linearen Regression kann wie folgt geschrieben werden

$\hat{w}=(X^TX)^{-1}X^Ty$

Wie können wir die Rolle von in dieser Gleichung intuitiv erklären ? $(X^TX)^{-1}$

regression least-squares matrix intuition matrix-inverse Darshak
quelle

2

Könnten Sie näher erläutern, was Sie unter "intuitiv" verstehen? Zum Beispiel gibt es eine wunderbar intuitive Erklärung in Bezug auf innere Produkträume, die in Christensens Flugzeugantworten auf komplexe Fragen dargestellt werden, aber nicht jeder wird diesen Ansatz zu schätzen wissen. Als weiteres Beispiel gibt es eine geometrische Erklärung in meiner Antwort unter stats.stackexchange.com/a/62147/919 , aber nicht jeder betrachtet geometrische Beziehungen als "intuitiv".

whuber

Intuitiv ist wie, was bedeutet $ (X ^ TX) ^ {- 1}? Ist es eine Art Entfernungsberechnung oder so, ich verstehe es nicht.

Darshak

1

Das ist in der Antwort, auf die ich verlinkt habe, vollständig erklärt.

whuber

Diese Frage existiert hier bereits, obwohl möglicherweise nicht mit einer zufriedenstellenden Antwort math.stackexchange.com/questions/2624986/…

Sextus Empiricus

5

Ich fand diese Beiträge besonders hilfreich:

Wie leite ich den Schätzer der kleinsten Quadrate für die multiple lineare Regression ab?

Beziehung zwischen SVD und PCA. Wie verwende ich SVD, um PCA durchzuführen?

http://www.math.miami.edu/~armstrong/210sp13/HW7notes.pdf

Wenn eine Matrix dann die Matrix eine definiert Projektion auf die Säule Raum . Intuitiv haben Sie ein überbestimmtes Gleichungssystem, möchten es aber dennoch verwenden, um eine lineare Abbildung , die die Zeilen von auf etwas in der Nähe der Werte , abbildet . Wir entscheiden uns also dafür, an das nächstgelegene Objekt zu zu senden , das als lineare Kombination Ihrer Merkmale (die Spalten von ) ausgedrückt werden kann . $X$ $n \times p$ $X(X^TX)^{-1}X^T$ $X$ $\mathbb{R}^p \rightarrow \mathbb{R}$ $x_i$ $X$ $y_i$ $i\in \{1,\dots,n\}$ $X$ $y$ $X$

Was die Interpretation von , habe ich noch keine erstaunliche Antwort. Ich weiß, dass Sie sich als die Kovarianzmatrix des Datensatzes vorstellen können. $(X^TX)^{-1}$ $(X^TX)$

James McKeown
quelle

(X^{T} X)

$(X^T X)$ wird manchmal als "Streumatrix" bezeichnet und ist nur eine

vergrößerte

4

Geometrischer Standpunkt

Ein geometrischer Gesichtspunkt kann wie die n-dimensionalen Vektoren und , die Punkte im n-dimensionalen Raum . Wobei sich auch in dem Unterraum , der von den Vektoren überspannt wird . $y$ $X\beta$ $V$ $X\hat\beta$ $W$ $x_1, x_2, \cdots, x_m$

Zwei Arten von Koordinaten

Für diesen Unterraum wir uns zwei verschiedene Arten von Koordinaten vorstellen : $W$

Das $\boldsymbol{\beta}$ ist wie Koordinaten für einen regulären Koordinatenraum. Der Vektor im Raum ist die lineare Kombination der Vektoren $z$ $W$ $\mathbf{x_i}$ $z = β_{1} x_{1} + β_{2} x_{1} + . . . . β_{m} x_{m}$ $z = \boldsymbol{\beta_1} \mathbf{x_1} + \boldsymbol{\beta_2} \mathbf{x_1} + .... \boldsymbol{\beta_m} \mathbf{x_m}$
Die $\boldsymbol{\alpha}$ nicht Koordinaten in dem regulären Sinne, sondern sie haben einen Punkt im Subraum definieren . Jedes bezieht sich auf die senkrechten Projektionen auf die Vektoren . Wenn wir Einheitsvektoren (der Einfachheit halber), können die "Koordinaten" für einen Vektor ausgedrückt werden als: $W$ $\alpha_i$ $x_i$ $x_i$ $\alpha_i$ $z$

$α_{i} = x_{i}^{T} z$ $\alpha_i = \mathbf{x_i^T} \mathbf{z}$
und die Menge aller Koordinaten als:

α = X^{T} z

$\boldsymbol{\alpha} = \mathbf{X^T} \mathbf{z}$

Zuordnung zwischen den Koordinaten und $\boldsymbol{\alpha}$ $\boldsymbol{\beta}$

Für der Ausdruck "Koordinaten" zu einer Konvertierung von Koordinaten in "Koordinaten" $\mathbf{z} = \mathbf{X}\boldsymbol{\beta}$ $\alpha$ $\beta$ $\alpha$

α = X^{T} X β

$\boldsymbol{\alpha} = \mathbf{X^T} \mathbf{X}\boldsymbol{\beta}$

Sie können sehen, dass ausdrückt, wie viel jedes auf das andere projiziert $(\mathbf{X^T} \mathbf{X})_{ij}$ $x_i$ $x_j$

Dann kann die geometrische Interpretation von als Karte von Vektorprojektions- "Koordinaten" zu linearen Koordinaten . $(\mathbf{X^T} \mathbf{X})^{-1}$ $\boldsymbol{\alpha}$ $\boldsymbol{\beta}$

β = (X^{T} X)^{- 1} α

$\boldsymbol{\beta} = (\mathbf{X^T} \mathbf{X})^{-1}\boldsymbol{\alpha}$

Der Ausdruck gibt die Projektions- "Koordinaten" von und verwandelt sie in . $\mathbf{X^Ty}$ $\mathbf{y}$ $(\mathbf{X^T} \mathbf{X})^{-1}$ $\boldsymbol{\beta}$

Hinweis : Die Projektionskoordinaten von sind die gleichen wie die Projektionskoordinaten von da . $\mathbf{y}$ $\mathbf{\hat{y}}$ $(\mathbf{y-\hat{y}}) \perp \mathbf{X}$

Sextus Empiricus
quelle

Ein sehr ähnlicher Bericht zum Thema stats.stackexchange.com/a/124892/3277 .

ttnphns

In der Tat sehr ähnlich. Für mich ist diese Ansicht sehr neu und ich musste mir eine Nacht Zeit nehmen, um darüber nachzudenken. Ich habe die Regression der kleinsten Quadrate immer als Projektion betrachtet, aber unter diesem Gesichtspunkt habe ich nie versucht, eine intuitive Bedeutung für den Teil oder ich habe sie immer im indirekteren Ausdruck .

(X^{T} X)^{- 1}

$(X^TX)^{-1}$

X^{T} y = X^{T} X β

$X^T y = X^TX\beta$

Sextus Empiricus

3

Angenommen, Sie kennen die einfache lineare Regression: und ihre Lösung :

y_{i} = α + β x_{i} + ε_{i}

$y_i=\alpha+\beta x_i+\varepsilon_i$

β = \frac{c o v [x_{i}, y_{i}]}{v a r [x_{i}]}

$\beta=\frac{\mathrm{cov}[x_i,y_i]}{\mathrm{var}[x_i]}$

Es ist leicht zu erkennen, wie dem obigen Zähler entspricht und dem Nenner zugeordnet ist. Da es sich um Matrizen handelt, ist die Reihenfolge wichtig. ist die KxK-Matrix und ist der Kx1-Vektor. Daher lautet die Reihenfolge: $X'y$ $X'X$ $X'X$ $X'y$ $(X'X)^{-1}X'y$

Aksakal
quelle

Diese Analogie selbst sagt Ihnen jedoch nicht, ob Sie vor oder nach der Multiplikation mit der Umkehrung arbeiten.

kjetil b halvorsen

@kjetilbhalvorsen, ich habe die Reihenfolge der Operationen

Aksakal

Intuition hinter in geschlossener Form von w in der linearen Regression

Antworten:

Geometrischer Standpunkt

Zwei Arten von Koordinaten

Zuordnung zwischen den Koordinaten undαα\boldsymbol{\alpha}ββ\boldsymbol{\beta}

Zuordnung zwischen den Koordinaten und $\boldsymbol{\alpha}$ $\boldsymbol{\beta}$