Was ist der Unterschied zwischen einer linearen Regression mit einer Gaußschen Radialen Basisfunktion (RBF) und einer linearen Regression mit einem Gaußschen Kernel?
regression
normal-distribution
kernel-trick
user35965
quelle
quelle
Antworten:
Der einzige wirkliche Unterschied besteht in der angewandten Regularisierung. Ein reguliertes RBF-Netzwerk verwendet normalerweise eine Strafe, die auf der Quadratnorm der Gewichte basiert. Für die Kernel-Version liegt die Strafe typischerweise auf der Quadrat-Norm der Gewichte des linearen Modells, die implizit in dem vom Kernel induzierten Merkmalsraum konstruiert sind. Der wesentliche praktische Unterschied besteht darin, dass die Strafe für das RBF-Netzwerk von den Zentren des RBF-Netzwerks (und damit von der Stichprobe der verwendeten Daten) abhängt, während für den RBF-Kern der induzierte Merkmalsraum unabhängig von der Stichprobe von gleich ist Daten, so ist die Strafe eine Strafe für die Funktion des Modells und nicht für seine Parametrisierung .
Mit anderen Worten, für beide Modelle haben wir
Für den RBF-Netzwerkansatz ist das Trainingskriterium
Für die RBF kernel Methode haben wir , dass , und → w = & Sigma; l i = 1 α i φ ( → x i ) . Dies bedeutet, dass eine quadratische Normstrafe für die Gewichte des Modells im induzierten Merkmalsraum → w in Form der dualen Parameter → α as geschrieben werden kannK(x⃗ ,x⃗ ′)=ϕ(x⃗ )⋅ϕ(x⃗ ′) w⃗ =∑ℓi=1αiϕ(x⃗ i) w⃗ α⃗
Dabei ist die Matix der paarweisen Auswertungen des Kernels für alle Trainingsmuster. Das Trainingskriterium ist dannK
.L=∑ℓi=1(yi−f(x⃗ i))2+λα⃗ TKα⃗
Der einzige Unterschied zwischen den beiden Modellen ist das im Regularisierungsterm.K
Der wesentliche theoretische Vorteil des Kernel-Ansatzes besteht darin, dass Sie ein nichtlineares Modell nach einer festen, nichtlinearen Transformation, die nicht von der Datenstichprobe abhängt, als lineares Modell interpretieren können. Somit wird jede statistische Lerntheorie, die für lineare Modelle existiert, automatisch in die nichtlineare Version übertragen. Dies alles bricht jedoch zusammen, sobald Sie versuchen, die Kernel-Parameter zu optimieren. An diesem Punkt sind wir theoretisch wieder so weit wie bei RBF- (und MLP-) neuronalen Netzen. Der theoretische Vorteil ist also vielleicht nicht so groß, wie wir möchten.
Wird es einen echten Unterschied in Bezug auf die Leistung geben? Wahrscheinlich nicht viel. Die "no free lunch" -Sätze deuten darauf hin, dass kein Algorithmus a priori über allen anderen liegt, und der Unterschied in der Regularisierung ist ziemlich subtil. Wenn Sie also Zweifel haben, versuchen Sie beides und wählen Sie das Beste z. B. nach Kreuzvalidierung.
quelle