Wie führt man eine orthogonale Regression (kleinste Quadrate) über PCA durch?

Ordentliche kleinste Quadrate vs. gesamte kleinste Quadrate

Betrachten wir zunächst den einfachsten Fall nur einer (unabhängigen) Prädiktorvariablen . Der Einfachheit halber seien sowohl als auch zentriert, dh der Achsenabschnitt ist immer Null. Der Unterschied zwischen der Standard-OLS-Regression und der "orthogonalen" TLS-Regression wird in dieser (von mir angepassten) Zahl aus der beliebtesten Antwort im beliebtesten Thread auf PCA deutlich: $x$ $x$ $y$

OLS gegen TLS

OLS passt die Gleichung indem quadratische Abstände zwischen beobachteten Werten und vorhergesagten Werten minimiert werden . TLS passt die gleiche Gleichung an, indem quadratische Abstände zwischen Punkten und deren Projektion auf der Linie minimiert werden. In diesem einfachsten Fall ist die TLS-Linie einfach die erste Hauptkomponente der 2D-Daten. Um zu finden , machen Sie PCA an Punkten, dh konstruieren Sie die Kovarianzmatrix und finden Sie ihren ersten Eigenvektor ; dann ist . $y=\beta x$ $y$ $\hat y$ $(x,y)$ $\beta$ $(x,y)$ $2\times 2$ $\boldsymbol \Sigma$ $\mathbf v = (v_x, v_y)$ $\beta = v_y/v_x$

In Matlab:

 v = pca([x y]);    //# x and y are centered column vectors
 beta = v(2,1)/v(1,1);

In R:

 v <- prcomp(cbind(x,y))$rotation
 beta <- v[2,1]/v[1,1]

Übrigens führt dies zu einer korrekten Neigung, selbst wenn und nicht zentriert waren (da die integrierten PCA-Funktionen automatisch die Zentrierung durchführen). Berechnen Sie zum Wiederherstellen des Abschnitts . $x$ $y$ $\beta_0 = \bar y - \beta \bar x$

OLS vs. TLS, multiple Regression

Bei einer abhängigen Variablen und vielen unabhängigen Variablen (ebenfalls der Einfachheit halber alle zentriert) passt die Regression zu einer GleichungOLS führt die Anpassung durch, indem die quadratischen Fehler zwischen den beobachteten Werten von und den vorhergesagten Werten minimiert werden . TLS führt die Anpassung durch, indem die quadratischen Abstände zwischen beobachteten Punkten und den nächsten Punkten auf der Regressionsebene / Hyperebene minimiert werden. $y$ $x_i$

y = β_{1} x_{1} + \dots + β_{p} x_{p} .

$y= \beta_1 x_1 + \ldots + \beta_p x_p.$

y

$y$

\hat{y}

$\hat y$

(x, y) \in R^{p + 1}

$(\mathbf x, y)\in\mathbb R^{p+1}$

Beachten Sie, dass es keine "Regressionslinie" mehr gibt! Die obige Gleichung gibt eine Hyperebene an : Es ist eine 2D-Ebene, wenn zwei Prädiktoren vorhanden sind, und eine 3D-Hyperebene, wenn drei Prädiktoren vorhanden sind eine Linie). Dennoch kann die Lösung leicht über PCA erhalten werden.

Wie zuvor wird die PCA an Punkten durchgeführt. Dies ergibt Eigenvektoren in Spalten von . Die ersten Eigenvektoren definieren eine dimensionale Hyperebene , die wir brauchen; der letzte (Nummer ) Eigenvektor ist orthogonal dazu. Die Frage ist, wie die Basis von die durch die ersten Eigenvektoren gegeben ist, in die Koeffizienten transformiert werden kann. $(\mathbf x, y)$ $p+1$ $\mathbf V$ $p$ $p$ $\mathcal H$ $p+1$ $\mathbf v_{p+1}$ $\mathcal H$ $p$ $\boldsymbol \beta$

Beachten Sie, dass wenn wir für alle und nur , dann , dh der Vektor liegt in der Hyperebene . Andererseits wissen wir, dass orthogonal dazu ist. Das heißt, ihr Skalarprodukt muss Null sein: $x_i=0$ $i \ne k$ $x_k=1$ $\hat y=\beta_k$

(0, \dots, 1, \dots, β_{k}) \in H

$(0,\ldots, 1, \ldots, \beta_k) \in \mathcal H$

H

$\mathcal H$

v_{p + 1} = (v_{1}, \dots, v_{p + 1}) ⊥ H

$\mathbf v_{p+1}=(v_1, \ldots, v_{p+1}) \:\bot\: \mathcal H$

v_{k} + β_{k} v_{p + 1} = 0 \Rightarrow β_{k} = - v_{k} / v_{p + 1} .

$v_k + \beta_k v_{p+1}=0 \Rightarrow \beta_k = -v_k/v_{p+1}.$

In Matlab:

 v = pca([X y]);    //# X is a centered n-times-p matrix, y is n-times-1 column vector
 beta = -v(1:end-1,end)/v(end,end);

In R:

 v <- prcomp(cbind(X,y))$rotation
 beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]

Dies führt wiederum zu korrekten Steigungen, selbst wenn und nicht zentriert sind (da die integrierten PCA-Funktionen automatisch die Zentrierung durchführen). Berechnen Sie zum Wiederherstellen des Abschnitts . $x$ $y$ $\beta_0 = \bar y - \bar {\mathbf x} \boldsymbol \beta$

Beachten Sie zur Überprüfung der Gesundheit, dass diese Lösung mit der vorherigen Lösung übereinstimmt, wenn nur ein einziger Prädiktor . In der Tat ist dann der -Raum 2D, und wenn der erste PCA-Eigenvektor orthogonal zum zweiten (letzten) ist, gilt . $x$ $(x,y)$ $v^{(1)}_y/v^{(1)}_x=-v^{(2)}_x/v^{(2)}_y$

Closed-Form-Lösung für TLS

Überraschenderweise stellt sich heraus, dass es eine geschlossene Formgleichung für . Das folgende Argument stammt aus Sabine van Huffels Buch "Die kleinsten Quadrate" (Abschnitt 2.3.2). $\boldsymbol \beta$

Sei und die zentrierten Datenmatrizen. Der letzte PCA-Eigenvektor ist ein Eigenvektor der Kovarianzmatrix von mit einem Eigenwert . Wenn es ein Eigenvektor ist, ist es auch . Schreiben Sie die Eigenvektorgleichung auf: $\mathbf X$ $\mathbf y$ $\mathbf v_{p+1}$ $[\mathbf X\: \mathbf y]$ $\sigma^2_{p+1}$ $-\mathbf v_{p+1}/v_{p+1} = (\boldsymbol \beta\:\: -1)^\top$

(\begin{matrix} X^{⊤} X & X^{⊤} y \\ y^{⊤} X & y^{⊤} y \end{matrix}) (\begin{matrix} β \\ - 1 \end{matrix}) = σ_{p + 1}^{2} (\begin{matrix} β \\ - 1 \end{matrix}),

$\left(\begin{array}{c}\mathbf X^\top \mathbf X & \mathbf X^\top \mathbf y\\ \mathbf y^\top \mathbf X & \mathbf y^\top \mathbf y\end{array}\right) \left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right) = \sigma^2_{p+1}\left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right),$ Wenn wir das Produkt auf der linken Seite berechnen, erhalten wir sofort das was stark an den bekannten OLS-Ausdruck

β_{T L S} = (X^{⊤} X - σ_{p + 1}^{2} I)^{- 1} X^{⊤} y,

$\boldsymbol \beta_\mathrm{TLS} = (\mathbf X^\top \mathbf X - \sigma^2_{p+1}\mathbf I)^{-1} \mathbf X^\top \mathbf y,$

β_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} y .

$\boldsymbol \beta_\mathrm{OLS} = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y.$

Multivariate multiple Regression

Dieselbe Formel kann auf den multivariaten Fall verallgemeinert werden, aber selbst um zu definieren, was multivariates TLS tut, wäre etwas Algebra erforderlich. Siehe Wikipedia zu TLS . Multivariate OLS-Regression entspricht einer Reihe von univariaten OLS-Regressionen für jede abhängige Variable, im TLS-Fall ist dies jedoch nicht der Fall.

Amöbe sagt Reinstate Monica
quelle

Ich kenne R nicht, wollte aber dennoch R-Schnipsel zum späteren Nachschlagen bereitstellen. Es gibt hier viele Leute, die sich mit R auskennen. Bitte zögern Sie nicht, meine Snippets bei Bedarf zu bearbeiten! Vielen Dank.

Amöbe sagt Reinstate Monica

Netter Beitrag, aber wenn ich fragen darf, was garantiert, dass der Vektor in der Hyperebene liegt?

(0, \dots, 1, \dots, β_{k})

$(0,\ldots, 1, \ldots, \beta_k)$

JohnK

@ JohnK, ich bin nicht sicher, was genau unklar ist. Wie ich geschrieben habe, seien alle bis auf gleich Null . Wenn Sie dies mit , erhalten Sie . Der Punkt liegt also auf der Hyperebene, die durch die Gleichung .

x_{i}

$x_i$

x_{k} = 1

$x_k=1$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

y = β_{k} \cdot 1 = β_{k}

$y=\beta_k\cdot 1 = \beta_k$

(0, \dots, 1, \dots β_{k})

$(0,\ldots, 1, \ldots \beta_k)$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

Amöbe sagt Reinstate Monica

Ich scheine diesen Teil falsch verstanden zu haben, aber jetzt ist es klar. Danke auch für die Klarstellung.

JohnK

In R bevorzugen Sie möglicherweise "eigen (cov (cbind (x, y))) $ vectors" gegenüber "prcomp (cbind (x, y)) $ rotation", da erstere für größere Vektoren viel schneller ist.

Thomas Browne

Wie führt man eine orthogonale Regression (kleinste Quadrate) über PCA durch?

Antworten:

Ordentliche kleinste Quadrate vs. gesamte kleinste Quadrate

OLS vs. TLS, multiple Regression

Closed-Form-Lösung für TLS

Multivariate multiple Regression