Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist?

35

Wie kann man beweisen, dass die radiale Basisfunktion ein Kernel ist? Um dies zu beweisen, müssen wir meines Wissens eine der folgenden Aussagen treffen:k(x,y)=exp(||xy||2)2σ2)

  1. Für jede Menge von Vektoren Matrix = positiv semidefinit.x1,x2,...,xnK(x1,x2,...,xn)(k(xi,xj))n×n

  2. Eine Abbildung kann wie = .Φk(x,y)Φ(x),Φ(y)

Irgendeine Hilfe?

Löwe
quelle
1
Um es klarer zu verknüpfen: In dieser Frage wird auch die Feature-Map erörtert , insbesondere Marc Claesens Antwort auf der Grundlage der Taylor-Reihe und meiner, in der sowohl die RKHS- als auch die allgemeine Version der von Douglas unten angegebenen Einbettung werden. L2
Dougal,

Antworten:

26

Zen verwendete Methode 1. Hier ist Methode 2: Ordne einer sphärisch symmetrischen Gaußschen Verteilung zu, die bei im Hilbert-Raum zentriert ist . Die Standardabweichung und ein konstanter Faktor müssen angepasst werden, damit dies genau funktioniert. Zum Beispiel in einer Dimension,xxL2

exp[(xz)2/(2σ2)]2πσexp[(yz)2/(2σ2)2πσdz=exp[(xy)2/(4σ2)]2πσ.

Verwenden Sie also eine Standardabweichung von und skalieren Sie die Gaußsche Verteilung, um . Diese letzte Neuskalierung erfolgt, weil die Norm einer Normalverteilung im Allgemeinen nicht . k(x,y)=(x),(y)L21σ/2k(x,y)=Φ(x),Φ(y)L21

Douglas Zare
quelle
2
@Zen, Douglas Zare: Danke für deine tollen Antworten. Wie soll ich jetzt die offizielle Antwort auswählen?
Leo
23

Ich werde Methode 1 anwenden. Überprüfen Sie die Antwort von Douglas Zare auf einen Beweis, indem Sie Methode 2 anwenden.

Ich werde den Fall beweisen, wenn reelle Zahlen sind, also . Der allgemeine Fall folgt mutatis mutandis aus demselben Argument und ist es wert, getan zu werden.k ( x , y ) = exp ( - ( x - y ) 2 / 2 σ 2 )x,yk(x,y)=exp((xy)2/2σ2)

Nehmen wir ohne Verlust der Allgemeinheit an, dass .σ2=1

Schreibe , wobei ist die charakteristische Funktion einer Zufallsvariablen mit -Verteilung.h ( t ) = exp ( - t 2k(x,y)=h(xy)ZN(0,1)

h(t)=exp(t22)=E[eitZ]
ZN(0,1)

Für reelle Zahlen und gilt was zur Folge hat, dass eine positive semidefinite Funktion, auch bekannt als Kernel, ist.a 1 , , a n n j , k = 1 a jx1,,xna1,,ank

j,k=1najakh(xjxk)=j,k=1najakE[ei(xjxk)Z]=E[j,k=1najeixjZakeixkZ]=E[|j=1najeixjZ|2]0,
k

Um dieses Ergebnis allgemeiner zu verstehen, lesen Sie Bochners Theorem: http://en.wikipedia.org/wiki/Positive-definite_function

Zen
quelle
2
Dies ist ein guter Start in die richtige Richtung mit zwei Einschränkungen: (a) nicht der gezeigten Erwartung (überprüfen Sie das Vorzeichen im Exponenten) und (b) dies scheint die Aufmerksamkeit auf den Fall zu beschränken, in dem und sind Skalare und keine Vektoren. Ich habe in der Zwischenzeit abgestimmt, weil die Ausstellung schön und sauber ist und Sie diese kleinen Lücken sicher schnell schließen werden. :-)x yh(t)xy
Kardinal
1
Tks! Ich habe es eilig hier. :-)
Zen
1
Entschuldigung, ich verstehe wirklich nicht, wie Sie das mutatis mutandis hier handhaben. Wenn Sie die Norm entwickeln, bevor Sie zur Form , erhalten Sie Produkte, und Sie können Produkte und Summe nicht tauschen. Und ich sehe einfach nicht, wie ich die Norm entwickeln soll, nachdem ich zur h-Form übergegangen bin, um einen schönen Ausdruck zu erhalten. Kannst du mich ein bisschen dorthin führen? :)h
Alburkerk
23

Aus Gründen der Abwechslung füge ich eine dritte Methode hinzu: Aufbau des Kernels aus einer Folge allgemeiner Schritte, die bekannt sind, um pd-Kernel zu erstellen. Lassen bezeichnet die Domäne des Kerns unten und die Feature - Karten. φXφ

  • Skalierungen: Wenn ein pd-Kernel ist, ist es auch für jede Konstante .γ κ γ > 0κγκγ>0

    Beweis: Wenn die Feature-Map für , ist eine gültige Feature-Map für .κ φκγκγφγκ

  • Summen: Wenn und pd-Kernel sind, ist es auch .κ 2 κ 1 + κ 2κ1κ2κ1+κ2

    Beweis: Verketten Sie die Feature-Maps und , um .φ1φ2x[φ1(x)φ2(x)]

  • : Wenn pd-Kernel sind und für alle , dann ist pd.κ1,κ2,κ(x,y):=limnκn(x,y)x,yκ

    Beweis: Für jedes und jedes wir das . Wenn Sie das Limit auf die gleiche Eigenschaft für .m,n1{(xi,ci)}i=1mX×Ri=1mciκn(xi,xj)cj0nκ

  • Produkte: Wenn und pd-Kernel sind, ist .κ1κ2g(x,y)=κ1(x,y)κ2(x,y)

    Beweis: Es folgt unmittelbar aus dem Schur-Produktsatz , aber Schölkopf und Smola (2002) geben den folgenden schönen, elementaren Beweis. Es sei unabhängig sein. Somit ist Kovarianzmatrizen müssen psd sein, daher beweist dies die Kovarianzmatrix von .

    (V1,,Vm)N(0,[κ1(xi,xj)]ij)(W1,,Wm)N(0,[κ2(xi,xj)]ij)
    Cov(ViWi,VjWj)=Cov(Vi,Vj)Cov(Wi,Wj)=κ1(xi,xj)κ2(xi,xj).
    (V1W1,,VnWn)
  • Potenzen: Wenn ein pd-Kernel ist, ist für eine beliebige positive ganze Zahl .κκn(x,y):=κ(x,y)nn

    Beweis: unmittelbar ab dem "Produkt" -Eigentum.

  • Exponenten: Wenn ein pd-Kernel ist, ist es auch .κeκ(x,y):=exp(κ(x,y))

    Beweis: Wir haben ; Verwenden Sie die Eigenschaften "Potenzen", "Skalierungen", "Summen" und "Grenzen".eκ(x,y)=limNn=0N1n!κ(x,y)n

  • Funktionen: Wenn ein pd-Kernel ist und , ist ebenfalls.κf:XRg(x,y):=f(x)κ(x,y)f(y)

    Beweis: Verwenden Sie die Feature-Map .xf(x)φ(x)

Beachten Sie nun, dass Beginne mit dem linearen Kernel , wende "Skalierungen" mit , wende "Exponenten" an und wende "Funktionen" mit .κ(x,y)=xTy1

k(x,y)=exp(12σ2xy2)=exp(12σ2x2)exp(1σ2xTy)exp(12σ2y2).
κ(x,y)=xTy xexp(-11σ2xexp(12σ2x2)
Dougal
quelle