Die Auswahl eines Kernels entspricht der Auswahl einer Funktionsklasse, aus der Sie Ihr Modell auswählen. Wenn sich die Auswahl eines Kernels wie eine große Sache anfühlt, die viele Annahmen codiert, dann liegt das daran, dass es so ist! Leute, die neu auf dem Gebiet sind, denken oft nicht viel über die Wahl des Kernels nach und entscheiden sich einfach für den Gaußschen Kernel, auch wenn dies nicht angemessen ist.
Wie entscheiden wir, ob ein Kernel angemessen erscheint oder nicht? Wir müssen darüber nachdenken, wie die Funktionen im entsprechenden Funktionsraum aussehen. Der Gaußsche Kernel entspricht sehr glatten Funktionen, und wenn dieser Kernel ausgewählt wird, wird angenommen, dass glatte Funktionen ein anständiges Modell liefern. Dies ist nicht immer der Fall, und es gibt unzählige andere Kernel, die unterschiedliche Annahmen darüber codieren, wie Ihre Funktionsklasse aussehen soll. Es gibt Kernel zum Modellieren periodischer Funktionen, instationäre Kernel und eine ganze Reihe anderer Dinge. Zum Beispiel ist die vom Gaußschen Kernel codierte Glättungsannahme nicht für die Textklassifizierung geeignet, wie Charles Martin in seinem Blog hier gezeigt hat .
Schauen wir uns Beispiele für Funktionen aus Räumen an, die zwei verschiedenen Kerneln entsprechen. Der erste ist der Gaußsche Kernel und der andere ist der Brownsche Bewegungskernel . Eine einzelne zufällige Ziehung aus jedem Feld sieht wie folgt aus:k1(x,x′)=exp(−γ|x−x′|2)k2(x,x′)=min{x,x′}
Dies sind eindeutig sehr unterschiedliche Annahmen darüber, was ein gutes Modell ist.
Beachten Sie auch, dass wir nicht unbedingt eine Korrelation erzwingen. Nehmen Sie Ihre mittlere Funktion als und Ihre Kovarianzfunktion als . Jetzt ist unser Modell
dh wir haben gerade die lineare Regression wiederhergestellt.μ(x)=xTβk(xi,xj)=σ21(i=j)
Y|X∼N(Xβ,σ2I)
Im Allgemeinen ist diese Korrelation zwischen nahe gelegenen Punkten jedoch ein äußerst nützliches und leistungsfähiges Modell. Stellen Sie sich vor, Sie besitzen eine Ölbohrfirma und möchten neue Ölreserven finden. Das Bohren ist extrem teuer, daher möchten Sie so wenig wie möglich bohren. Nehmen wir an, wir haben gebohrtn=5Löcher und wir wollen wissen, wo unser nächstes Loch sein sollte. Wir können uns vorstellen, dass sich die Ölmenge in der Erdkruste gleichmäßig ändert. Daher werden wir die Ölmenge in dem gesamten Gebiet modellieren, in das wir mit einem Gaußschen Prozess unter Verwendung des Gaußschen Kerns bohren möchten Zu sagen, dass wirklich nahe Orte wirklich ähnliche Mengen an Öl haben und wirklich weit voneinander entfernte Orte praktisch unabhängig sind. Der Gaußsche Kernel ist ebenfalls stationär, was in diesem Fall sinnvoll ist: Die Stationarität besagt, dass die Korrelation zwischen zwei Punkten nur vom Abstand zwischen ihnen abhängt. Wir können dann unser Modell verwenden, um vorherzusagen, wo wir als nächstes bohren sollen. Wir haben gerade einen einzigen Schritt in einer Bayes'schen Optimierung gemachtund ich finde, dass dies ein sehr guter Weg ist, um intuitiv zu verstehen, warum wir den Korrelationsaspekt von Hausärzten mögen.
Eine weitere gute Ressource ist Jones et al. (1998) . Sie nennen ihr Modell keinen Gaußschen Prozess, aber es ist so. Dieses Papier gibt ein sehr gutes Gefühl dafür, warum wir die Korrelation zwischen nahe gelegenen Punkten auch in einer deterministischen Umgebung verwenden möchten.
Ein letzter Punkt: Ich glaube, niemand geht jemals davon aus, dass wir gute Vorhersageergebnisse erzielen können. Das möchten wir überprüfen, beispielsweise durch Kreuzvalidierung.
Aktualisieren
Ich möchte die Art der Korrelation klären, die wir modellieren. Betrachten wir zunächst die lineare Regression, also . Unter diesem Modell haben wir für . Wir wissen aber auch, dass wenn dann
Y|X∼N(Xβ,σ2I)Yi⊥Yj|Xi≠j||x1−x2||2<ε
(E(Y1|X)−E(Y2|X))2=(xT1β−xT2β)2=⟨x1−x2,β⟩2≤||x1−x2||2||β||2<ε||β||2.
Dies sagt uns also, dass wenn die Eingänge und sehr nahe liegen, die von und sehr nahe liegen. Dies unterscheidet sich von der Korrelation, da sie immer noch unabhängig sind, wie
x1x2Y1Y2
P(Y1>E(Y1|X) | Y2>E(Y2|X))=P(Y1>E(Y1|X)).
Wenn sie korreliert wären, würde das Wissen, dass über dem Mittelwert liegt, etwas über .Y2Y1
Lassen Sie uns nun aber wir werden die Korrelation durch hinzufügen . Wir haben immer noch das gleiche Ergebnis, das ist klein, aber jetzt haben wir die Tatsache gewonnen, dass Wenn beispielsweise größer als sein Mittelwert ist, ist es wahrscheinlich auch . Dies ist die Korrelation, die wir hinzugefügt haben.μ(x)=xTβCov(Yi,Yj)=k(xi,xj)||x1−x2||2<ε⟹(E(Y1|X)−E(Y2|X))2Y1Y2
Wenn und einander ähnlich sind, dh groß ist, sollten und wahrscheinlich auch einander ähnlich sein. Daher führt die Nähe im Eingaberaum (der zu approximierenden Funktion) zur Nähe im Ausgaberaum. Dies sind vernünftige Annahmen für viele Anwendungen. Wenn beispielsweise zwei Schüler einen ähnlichen High-School-Abschluss haben, wird von ihnen erwartet, dass sie auch in der SAT-Prüfung ähnliche Leistungen erbringen.xi xl k(xi,xl) yi yl
quelle