Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:
Für jede Menge von Vektoren Matrix = positiv semidefinit.
Eine Abbildung kann wie = .
Irgendeine Hilfe?
svm
kernel-trick
Löwe
quelle
quelle
Antworten:
Zen verwendete Methode 1. Hier ist Methode 2: Ordne einer sphärisch symmetrischen Gaußschen Verteilung zu, die bei im Hilbert-Raum zentriert ist . Die Standardabweichung und ein konstanter Faktor müssen angepasst werden, damit dies genau funktioniert. Zum Beispiel in einer Dimension,x x L2
Verwenden Sie also eine Standardabweichung von und skalieren Sie die Gaußsche Verteilung, um . Diese letzte Neuskalierung erfolgt, weil die Norm einer Normalverteilung im Allgemeinen nicht . k(x,y)=≤≤(x),≤(y)≤L21σ/2–√ k(x,y)=⟨Φ(x),Φ(y)⟩ L2 1
quelle
Ich werde Methode 1 anwenden. Überprüfen Sie die Antwort von Douglas Zare auf einen Beweis, indem Sie Methode 2 anwenden.
Ich werde den Fall beweisen, wenn reelle Zahlen sind, also . Der allgemeine Fall folgt mutatis mutandis aus demselben Argument und ist es wert, getan zu werden.k ( x , y ) = exp ( - ( x - y ) 2 / 2 σ 2 )x , y k ( x , y) = exp( - ( x - y)2/ 2 σ2)
Nehmen wir ohne Verlust der Allgemeinheit an, dass .σ2= 1
Schreibe , wobei ist die charakteristische Funktion einer Zufallsvariablen mit -Verteilung.h ( t ) = exp ( - t 2k ( x , y) = h ( x - y) ZN(0,1)
Für reelle Zahlen und gilt was zur Folge hat, dass eine positive semidefinite Funktion, auch bekannt als Kernel, ist.a 1 , … , a n n ∑ j , k = 1 a jx1, … , Xn ein1, … , An k
Um dieses Ergebnis allgemeiner zu verstehen, lesen Sie Bochners Theorem: http://en.wikipedia.org/wiki/Positive-definite_function
quelle
Aus Gründen der Abwechslung füge ich eine dritte Methode hinzu: Aufbau des Kernels aus einer Folge allgemeiner Schritte, die bekannt sind, um pd-Kernel zu erstellen. Lassen bezeichnet die Domäne des Kerns unten und die Feature - Karten. φX φ
Skalierungen: Wenn ein pd-Kernel ist, ist es auch für jede Konstante .γ κ γ > 0κ γκ γ> 0
Beweis: Wenn die Feature-Map für , ist eine gültige Feature-Map für .κ √φ κ γκγ--√φ γκ
Summen: Wenn und pd-Kernel sind, ist es auch .κ 2 κ 1 + κ 2κ1 κ2 κ1+κ2
Beweis: Verketten Sie die Feature-Maps und , um .φ1 φ2 x↦[φ1(x)φ2(x)]
: Wenn pd-Kernel sind und für alle , dann ist pd.κ1,κ2,… κ(x,y):=limn→∞κn(x,y) x,y κ
Beweis: Für jedes und jedes wir das . Wenn Sie das Limit auf die gleiche Eigenschaft für .m,n≥1 {(xi,ci)}mi=1⊆X×R ∑mi=1ciκn(xi,xj)cj≥0 n→∞ κ
Produkte: Wenn und pd-Kernel sind, ist .κ1 κ2 g(x,y)=κ1(x,y)κ2(x,y)
Beweis: Es folgt unmittelbar aus dem Schur-Produktsatz , aber Schölkopf und Smola (2002) geben den folgenden schönen, elementaren Beweis. Es sei unabhängig sein. Somit ist Kovarianzmatrizen müssen psd sein, daher beweist dies die Kovarianzmatrix von .
Potenzen: Wenn ein pd-Kernel ist, ist für eine beliebige positive ganze Zahl .κ κn(x,y):=κ(x,y)n n
Beweis: unmittelbar ab dem "Produkt" -Eigentum.
Exponenten: Wenn ein pd-Kernel ist, ist es auch .κ eκ(x,y):=exp(κ(x,y))
Beweis: Wir haben ; Verwenden Sie die Eigenschaften "Potenzen", "Skalierungen", "Summen" und "Grenzen".eκ(x,y)=limN→∞∑Nn=01n!κ(x,y)n
Funktionen: Wenn ein pd-Kernel ist und , ist ebenfalls.κ f:X→R g(x,y):=f(x)κ(x,y)f(y)
Beweis: Verwenden Sie die Feature-Map .x↦f(x)φ(x)
Beachten Sie nun, dass Beginne mit dem linearen Kernel , wende "Skalierungen" mit , wende "Exponenten" an und wende "Funktionen" mit .κ(x,y)=xTy1
quelle