Ich untersuche den Unterschied zwischen Regularisierung in der RKHS-Regression und linearer Regression, aber es fällt mir schwer, den entscheidenden Unterschied zwischen beiden zu erfassen.
Bei gegebenen Eingabe-Ausgabe-Paaren möchte ich eine Funktion wie folgt schätzen: wobei eine Kernelfunktion ist. Die Koeffizienten können entweder durch Lösen von wobei mit etwas Missbrauch der Notation der i, j' -te Eintrag der Kernelmatrix K ist ist {\ displaystyle K (x_ {i}, x_ {j})} . Dies ergibt \ begin {Gleichung} \ alpha ^ * = (K + \ lambda nI) ^ {- 1} Y. \ end {Gleichung}
Alternativ könnten wir das Problem als normales Ridge-Regressions- / lineares Regressionsproblem behandeln:
mit Lösung
Was wäre der entscheidende Unterschied zwischen diesen beiden Ansätzen und ihren Lösungen?
Antworten:
Wie Sie wahrscheinlich beim Aufschreiben der Optimierungsprobleme bemerkt haben, besteht der einzige Unterschied bei der Minimierung darin, welche Hilbert-Norm für die Bestrafung verwendet werden soll. Das heißt, um zu quantifizieren, welche 'großen' Werte von für Bestrafungszwecke sind. In der RKHS-Einstellung verwenden wir das innere RKHS-Produkt , während die Gratregression in Bezug auf die euklidische Norm bestraft wird.α t K αα αtKα
Eine interessante theoretische Konsequenz ist, wie jede Methode das Spektrum des reproduzierenden Kerns . Nach der RKHS-Theorie haben wir, dass symmetrisch positiv definit ist. Nach dem Spektralsatz können wir schreiben, wobei die diagonale Matrix der Eigenwerte und die orthonormale Matrix der Eigenvektoren ist. Folglich ist in der RKHS-Einstellung Beachten Sie in der Ridge-Regressionseinstellung, dass nach Symmetrie ist. K K = U t D U D U ( K + λ n I ) - 1 Y.K K K=UtDU D U
Abhängig von der Wahl des Kernels können die beiden Schätzungen für nahe oder weit voneinander entfernt sein. Der Abstand im Sinne der Operatornorm beträgt Dies ist jedoch immer noch für ein bestimmtesα Y.
In der Praxis ist es schwer definitiv zu sagen, ob einer für eine bestimmte Situation besser ist als der andere. Da wir bei der Darstellung der Daten in Bezug auf die Kernelfunktion den quadratischen Fehler minimieren, wählen wir effektiv eine beste Regressionskurve aus dem entsprechenden Hilbert-Funktionsraum aus. Daher scheint die Bestrafung des inneren Produkts von RKHS der natürliche Weg zu sein.
quelle