Regularisierte lineare vs. RKHS-Regression

Ich untersuche den Unterschied zwischen Regularisierung in der RKHS-Regression und linearer Regression, aber es fällt mir schwer, den entscheidenden Unterschied zwischen beiden zu erfassen.

Bei gegebenen Eingabe-Ausgabe-Paaren möchte ich eine Funktion wie folgt schätzen: wobei eine Kernelfunktion ist. Die Koeffizienten können entweder durch Lösen von wobei mit etwas Missbrauch der Notation der -te Eintrag der Kernelmatrix ist . Dies ergibt $(x_i,y_i)$ $f(\cdot)$

f (x) \approx u (x) = \sum_{i = 1}^{m} α_{i} K (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}$

K (\cdot, \cdot)

$K(\cdot,\cdot)$

α_{m}

$\alpha_m$

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

i, j

$i,j$

K

$K$

K (x_{i}, x_{j})

$K(x_{i},x_{j})$

α^{*} = (K + λ n I)^{- 1} Y .

$\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation}$ Alternativ könnten wir das Problem als normales Ridge-Regressions- / lineares Regressionsproblem behandeln:

min_{α \in R^{n}} \frac{1}{n} ‖ Y - K α ‖_{R^{n}}^{2} + λ α^{T} α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation}$ mit Lösung

α^{*} = (K^{T} K + λ n I)^{- 1} K^{T} Y .

$\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation}$

Was wäre der entscheidende Unterschied zwischen diesen beiden Ansätzen und ihren Lösungen?

regression generalized-linear-model regularization kernel-trick rbf-kernel MthQ
quelle

stats.stackexchange.com/questions/79192/…

Cagdas Ozgenc

@MThQ - Funktioniert Ihre Beschreibung der "normalen" Gratregression nicht immer noch im Dualen? Nur um zu verdeutlichen, dass meiner Meinung nach angenommen wird, dass die normale Gratregression im Urbereich funktioniert (wo eine explizite Merkmalsdarstellung vorgenommen wird).

rnoodle

Wie Sie wahrscheinlich beim Aufschreiben der Optimierungsprobleme bemerkt haben, besteht der einzige Unterschied bei der Minimierung darin, welche Hilbert-Norm für die Bestrafung verwendet werden soll. Das heißt, um zu quantifizieren, welche 'großen' Werte von für Bestrafungszwecke sind. In der RKHS-Einstellung verwenden wir das innere RKHS-Produkt , während die Gratregression in Bezug auf die euklidische Norm bestraft wird. $\alpha$ $\alpha^tK\alpha$

Eine interessante theoretische Konsequenz ist, wie jede Methode das Spektrum des reproduzierenden Kerns . Nach der RKHS-Theorie haben wir, dass symmetrisch positiv definit ist. Nach dem Spektralsatz können wir schreiben, wobei die diagonale Matrix der Eigenwerte und die orthonormale Matrix der Eigenvektoren ist. Folglich ist in der RKHS-Einstellung Beachten Sie in der Ridge-Regressionseinstellung, dass nach Symmetrie ist. $K$ $K$ $K = U^tDU$ $D$ $U$

\begin{aligned} (K + λ n I)^{- 1} Y & = [U^{t} (D + λ n I) U]^{- 1} Y \\ = U^{t} [D + λ n I]^{- 1} U Y . \end{aligned}

$\begin{align} (K+\lambda nI)^{-1}Y &= [U^t(D+\lambda nI)U]^{-1}Y\\ &= U^t[D+\lambda nI]^{-1}UY. \end{align}$

K^{t} K = K^{2}

$K^tK=K^2$

\begin{aligned} (K^{2} + λ n I)^{- 1} K Y & = [U^{t} (D^{2} + λ n I) U]^{- 1} K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} U K Y \\ = U^{t} [D^{2} + λ n I]^{- 1} D U Y \\ = U^{t} [D + λ n D^{- 1}]^{- 1} U Y . \end{aligned}

$\begin{align} (K^2+\lambda nI)^{-1}KY &= [U^t(D^2+\lambda nI)U]^{-1}KY\\ &= U^t[D^2+\lambda nI]^{-1}UKY\\ &= U^t[D^2+\lambda nI]^{-1}DUY\\ &= U^t[D+\lambda nD^{-1}]^{-1}UY. \end{align}$ Das Spektrum von sei . Bei der RKHS-Regression werden die Eigenwerte durch stabilisiert . In der Ridge-Regression haben wir . Infolgedessen modifiziert RKHS die Eigenwerte gleichmäßig, während Ridge einen größeren Wert hinzufügt, wenn das entsprechende kleiner ist.

K

$K$

ν_{1}, \dots, ν_{n}

$\nu_1,\ldots,\nu_n$

ν_{i} \to ν_{i} + λ n

$\nu_i\rightarrow\nu_i+\lambda n$

ν_{i} \to ν_{i} + λ n / ν_{i}

$\nu_i\rightarrow \nu_i + \lambda n/\nu_i$

ν_{i}

$\nu_i$

Abhängig von der Wahl des Kernels können die beiden Schätzungen für nahe oder weit voneinander entfernt sein. Der Abstand im Sinne der Operatornorm beträgt Dies ist jedoch immer noch für ein bestimmtes $\alpha$

\begin{aligned} ‖ α_{RKHS} - α_{Ridge} ‖_{ℓ^{2}} & = ‖ A_{RKHS} Y - A_{Ridge} Y ‖_{ℓ^{2}} \\ \leq ‖ [D + λ n I]^{- 1} - [D + λ n D^{- 1}]^{- 1} ‖_{\infty} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {| (ν_{i} + λ n)^{- 1} - (ν_{i} + λ n / ν_{i})^{- 1} |} ‖ Y ‖_{ℓ^{2}} \\ \leq max_{i = 1, \dots, n} {\frac{λ n | 1 - ν_{i} |}{(ν_{i} + λ n) (ν_{i}^{2} + λ n)}} ‖ Y ‖_{ℓ^{2}} \end{aligned}

$\begin{align} \|{\alpha_\text{RKHS}-\alpha_\text{Ridge}}\|_{\ell^2} &= \|{ A_\text{RKHS}Y-A_\text{Ridge}Y }\|_{\ell^2}\\ &\le \|[D+\lambda nI]^{-1}-[D+\lambda n D^{-1}]^{-1}\|_\infty\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{| (\nu_i+\lambda n)^{-1} - (\nu_i+\lambda n/\nu_i)^{-1} |\right\}\|Y\|_{\ell^2}\\ &\le \max_{i=1,\ldots,n}\left\{ \frac{\lambda n|1-\nu_i|}{(\nu_i+\lambda n)(\nu_i^2+\lambda n)} \right\}\|Y\|_{\ell^2}\\ \end{align}$

Y

$Y$ Ihre beiden Schätzer können also nicht beliebig weit voneinander entfernt sein. Wenn sich Ihr Kernel also in der Nähe der Identität befindet, gibt es wahrscheinlich kaum Unterschiede in den Ansätzen. Wenn sich Ihre Kernel stark unterscheiden, können die beiden Ansätze immer noch zu ähnlichen Ergebnissen führen.

In der Praxis ist es schwer definitiv zu sagen, ob einer für eine bestimmte Situation besser ist als der andere. Da wir bei der Darstellung der Daten in Bezug auf die Kernelfunktion den quadratischen Fehler minimieren, wählen wir effektiv eine beste Regressionskurve aus dem entsprechenden Hilbert-Funktionsraum aus. Daher scheint die Bestrafung des inneren Produkts von RKHS der natürliche Weg zu sein.

Adam B. Kashlak
quelle

Haben Sie eine Referenz dafür?

rnoodle

Regularisierte lineare vs. RKHS-Regression

Antworten: