Regularisierte lineare vs. RKHS-Regression

9

Ich untersuche den Unterschied zwischen Regularisierung in der RKHS-Regression und linearer Regression, aber es fällt mir schwer, den entscheidenden Unterschied zwischen beiden zu erfassen.

Bei gegebenen Eingabe-Ausgabe-Paaren möchte ich eine Funktion wie folgt schätzen: wobei eine Kernelfunktion ist. Die Koeffizienten können entweder durch Lösen von wobei mit etwas Missbrauch der Notation der i, j' -te Eintrag der Kernelmatrix K ist ist {\ displaystyle K (x_ {i}, x_ {j})} . Dies ergibt \ begin {Gleichung} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {Gleichung}(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
i,jKK(xi,xj)
α=(K+λnI)1Y.
Alternativ könnten wir das Problem als normales Ridge-Regressions- / lineares Regressionsproblem behandeln:
minαRn1nYKαRn2+λαTα,
mit Lösung
α=(KTK+λnI)1KTY.

Was wäre der entscheidende Unterschied zwischen diesen beiden Ansätzen und ihren Lösungen?

MthQ
quelle
@MThQ - Funktioniert Ihre Beschreibung der "normalen" Gratregression nicht immer noch im Dualen? Nur um zu verdeutlichen, dass meiner Meinung nach angenommen wird, dass die normale Gratregression im Urbereich funktioniert (wo eine explizite Merkmalsdarstellung vorgenommen wird).
rnoodle

Antworten:

5

Wie Sie wahrscheinlich beim Aufschreiben der Optimierungsprobleme bemerkt haben, besteht der einzige Unterschied bei der Minimierung darin, welche Hilbert-Norm für die Bestrafung verwendet werden soll. Das heißt, um zu quantifizieren, welche 'großen' Werte von für Bestrafungszwecke sind. In der RKHS-Einstellung verwenden wir das innere RKHS-Produkt , während die Gratregression in Bezug auf die euklidische Norm bestraft wird.α t K αααtKα

Eine interessante theoretische Konsequenz ist, wie jede Methode das Spektrum des reproduzierenden Kerns . Nach der RKHS-Theorie haben wir, dass symmetrisch positiv definit ist. Nach dem Spektralsatz können wir schreiben, wobei die diagonale Matrix der Eigenwerte und die orthonormale Matrix der Eigenvektoren ist. Folglich ist in der RKHS-Einstellung Beachten Sie in der Ridge-Regressionseinstellung, dass nach Symmetrie ist. K K = U t D U D U ( K + λ n I ) - 1 Y.KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Das Spektrum von sei . Bei der RKHS-Regression werden die Eigenwerte durch stabilisiert . In der Ridge-Regression haben wir . Infolgedessen modifiziert RKHS die Eigenwerte gleichmäßig, während Ridge einen größeren Wert hinzufügt, wenn das entsprechende kleiner ist.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Abhängig von der Wahl des Kernels können die beiden Schätzungen für nahe oder weit voneinander entfernt sein. Der Abstand im Sinne der Operatornorm beträgt Dies ist jedoch immer noch für ein bestimmtesαY.

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
YIhre beiden Schätzer können also nicht beliebig weit voneinander entfernt sein. Wenn sich Ihr Kernel also in der Nähe der Identität befindet, gibt es wahrscheinlich kaum Unterschiede in den Ansätzen. Wenn sich Ihre Kernel stark unterscheiden, können die beiden Ansätze immer noch zu ähnlichen Ergebnissen führen.

In der Praxis ist es schwer definitiv zu sagen, ob einer für eine bestimmte Situation besser ist als der andere. Da wir bei der Darstellung der Daten in Bezug auf die Kernelfunktion den quadratischen Fehler minimieren, wählen wir effektiv eine beste Regressionskurve aus dem entsprechenden Hilbert-Funktionsraum aus. Daher scheint die Bestrafung des inneren Produkts von RKHS der natürliche Weg zu sein.

Adam B. Kashlak
quelle
1
Haben Sie eine Referenz dafür?
rnoodle