Gaußscher RBF vs. Gaußscher Kernel

18

Was ist der Unterschied zwischen einer linearen Regression mit einer Gaußschen Radialen Basisfunktion (RBF) und einer linearen Regression mit einem Gaußschen Kernel?

user35965
quelle
Willkommen auf der Site, @ user35965. Bitte buchstabieren Sie Ihre Akronyme. Mit "RBF" meinen Sie die radiale Basisfunktion ?
gung - Wiedereinsetzung von Monica
2
Ja, genau das habe ich gemeint. Ordnungsgemäß zur künftigen Bezugnahme vermerkt.
user35965

Antworten:

19

Der einzige wirkliche Unterschied besteht in der angewandten Regularisierung. Ein reguliertes RBF-Netzwerk verwendet normalerweise eine Strafe, die auf der Quadratnorm der Gewichte basiert. Für die Kernel-Version liegt die Strafe typischerweise auf der Quadrat-Norm der Gewichte des linearen Modells, die implizit in dem vom Kernel induzierten Merkmalsraum konstruiert sind. Der wesentliche praktische Unterschied besteht darin, dass die Strafe für das RBF-Netzwerk von den Zentren des RBF-Netzwerks (und damit von der Stichprobe der verwendeten Daten) abhängt, während für den RBF-Kern der induzierte Merkmalsraum unabhängig von der Stichprobe von gleich ist Daten, so ist die Strafe eine Strafe für die Funktion des Modells und nicht für seine Parametrisierung .

Mit anderen Worten, für beide Modelle haben wir

f(x)=i=1αiK(xi,x)

Für den RBF-Netzwerkansatz ist das Trainingskriterium

L=i=1(yif(xi))2+λα2

Für die RBF kernel Methode haben wir , dass , und w = & Sigma; l i = 1 α i φ ( x i ) . Dies bedeutet, dass eine quadratische Normstrafe für die Gewichte des Modells im induzierten Merkmalsraum w in Form der dualen Parameter α as geschrieben werden kannK(x,x)=ϕ(x)ϕ(x)w=i=1αiϕ(xi)wα

w2=αTKα,

Dabei ist die Matix der paarweisen Auswertungen des Kernels für alle Trainingsmuster. Das Trainingskriterium ist dannK

.L=i=1(yif(xi))2+λαTKα

Der einzige Unterschied zwischen den beiden Modellen ist das im Regularisierungsterm.K

Der wesentliche theoretische Vorteil des Kernel-Ansatzes besteht darin, dass Sie ein nichtlineares Modell nach einer festen, nichtlinearen Transformation, die nicht von der Datenstichprobe abhängt, als lineares Modell interpretieren können. Somit wird jede statistische Lerntheorie, die für lineare Modelle existiert, automatisch in die nichtlineare Version übertragen. Dies alles bricht jedoch zusammen, sobald Sie versuchen, die Kernel-Parameter zu optimieren. An diesem Punkt sind wir theoretisch wieder so weit wie bei RBF- (und MLP-) neuronalen Netzen. Der theoretische Vorteil ist also vielleicht nicht so groß, wie wir möchten.

Wird es einen echten Unterschied in Bezug auf die Leistung geben? Wahrscheinlich nicht viel. Die "no free lunch" -Sätze deuten darauf hin, dass kein Algorithmus a priori über allen anderen liegt, und der Unterschied in der Regularisierung ist ziemlich subtil. Wenn Sie also Zweifel haben, versuchen Sie beides und wählen Sie das Beste z. B. nach Kreuzvalidierung.

Dikran Beuteltier
quelle
1
@CagdasOzgenc Ja, für die RBF ist der Regularisierer und nicht α T K α für die Kernelmaschine. Sie würden sich ähnlicher werden, wenn sich die Breite der Basisfunktion Null nähert, während sich K I nähert . Ich denke, das liegt im Wesentlichen daran, dass K die Korrelation zwischen Basisfunktionen erklärt. α2=αTIααTKαKIK
Dikran Beuteltier
@CagdasOzgenc Ich betrachte es so, dass das im Regularisierer die Strafe für jeden Basisvektor unterschiedlich gewichtet und die Strafe von der Auswahl der anderen Basisvektoren abhängt. Dieses Gewicht hängt von ihren Korrelationen ab. Wenn Sie also eine andere Probe auswählen, ändern sich die Gewichte, um dies zu kompensieren. Die andere Sichtweise ist, dass das Modell in einem durch ϕ ( x ) bestimmten Merkmalsraum definiert ist , der nicht von der Wahl der Basisvektoren abhängt (vorausgesetzt, sie erstrecken sich über den Raum, der die Daten enthält). Kϕ(x)
Dikran Beuteltier
@CagdasOzgenc Sicher können wir den Raum der Basisfunktionen durch eine Eigenzerlegung von transformieren und einen α2- Stil-Regularisierer zurückgewinnen (in der Tat ist dies ein nützlicher Trick zur Optimierung des Regularisierungsparameters - doi.org/10.1016/j .neunet.2007.05.005 ). Diese Transformation beseitigt jedoch die Abhängigkeit von der ursprünglichen Wahl der Basisfunktion. Für die beiden Dinge gleich sein müßte & agr; T K & agr; = & mgr; & agr; T I & agr; , die im allgemeinen nicht wahr ist (vor allem nicht für den RBF - Kernel).Kα2αTKα=μαTIα
Dikran Marsupial
Vielen Dank. Ich werde darüber nachdenken und mich bei Ihnen melden. Im Moment bin ich anscheinend nicht auf Ihrer Ebene des Verständnisses. Ich muss mehr nachdenken :).
Cagdas Ozgenc
@CagdasOzgenc kein Problem, die meisten Standardtexte erklären es durch Eigenfunktionen der Kernelfunktion, was auch mein Gehirn verletzt! ; o)
Dikran Marsupial