Die Ridge-Regression kann ausgedrückt werden als wobei die vorhergesagte Bezeichnung ist , die Identifizierungsmatrix, das Objekt, für das wir eine Bezeichnung finden möchten, und die Matrix von Objekten so dass:
Wir können dies wie folgt kernelisieren:
Dabei ist die Matrix der Kernelfunktionen
und der Spaltenvektor der Kernfunktionen
Fragen:
(a) Wenn es mehr Objekte als Dimensionen gibt, ist es sinnvoll, keine Kernel zu verwenden? Eg lassen sein Matrix dann wird eine sein und wir werden ein Ende Invertieren - Matrix anstelle der Matrix müssten wir invertieren, wenn wir Kernel verwenden würden. Bedeutet dies, dass wir keine Kernel verwenden sollten , wenn ?
(b) Sollte der einfachste Kernel verwendet werden? Es scheint, dass Kernel in der Ridge-Regression verwendet werden, um die Einflüsse der Dimensionalität zu negieren und bestimmte Eigenschaften des Merkmalsraums nicht zu nutzen (im Gegensatz zu Support-Vektor-Maschinen). Obwohl Kernel die Abstände zwischen Objekten ändern können, gibt es beliebte Kernel, die häufig bei der Ridge-Regression verwendet werden?
(c) Wie hoch ist die Zeit-Komplexität der Ridge-Regression und / oder der Kernel-Ridge-Regression?
Antworten:
(a) Der Zweck der Verwendung eines Kernels besteht darin, in diesem Fall ein nichtlineares Regressionsproblem zu lösen. Mit einem guten Kernel können Sie Probleme in einem möglicherweise unendlich dimensionalen Merkmalsraum lösen. Die Verwendung eines linearen Kernels und die Durchführung der Kernel-Ridge-Regression im dualen Raum entspricht der Lösung des Problems im ursprünglichen Raum Das heißt, es bringt keinen Vorteil (es ist nur viel langsamer, wenn die Anzahl der Proben wächst, wie Sie beobachtet haben).K(x,y)=x⊤y
(b) Eine der beliebtesten Optionen ist der quadratische Exponentialkern die universell ist (siehe unten). Es gibt viele, viele Kernel, und jeder von ihnen induziert ein anderes inneres Produkt (und damit eine andere Metrik) für Ihren Feature-Space.K(x,y)=exp(−τ2||x−y||2)
(c) Eine einfache Implementierung erfordert das Lösen einer linearen Gleichung der Größe , also ist es . Es gibt viele schnellere Approximationsmethoden wie die Nyström-Approximation. Dies ist ein Bereich aktiver Forschung.n O(n3)
Verweise:
quelle