Kann eine stetige Funktion auf [a, b], bei der a und b reelle Zahlen sind, durch Gaußsche Prozesse (Regression) angenähert werden oder der Funktion (in einer Norm) willkürlich nahe kommen?
gaussian-process
approximation
Michael D.
quelle
quelle
Antworten:
Wie @Dougal bemerkt, gibt es zwei verschiedene Möglichkeiten, wie Ihre Frage interpretiert werden kann. Sie sind eng miteinander verbunden, auch wenn es nicht so scheint.
Die erste Interpretation lautet: Sei eine kompakte Teilmenge von (Kompaktheit ist für alle folgenden Punkte von grundlegender Bedeutung !!!), sei a kontinuierliche Kovarianzfunktion (oder Kernel), definiert auf , und bezeichnet mit den normierten Raum kontinuierlicher Funktionen auf , ausgestattet mit der maximalen Norm . Für jede Funktion kann durch eine Funktion im RKHS (Reproducing Kernel Hilbert Space), die an eine vorgegebene Toleranz angenähert werdenX Rd k(x,x) X×X C(X) X ||⋅||∞ f∈C(X) f ϵ k ? Sie fragen sich vielleicht, was ein RKHS ist und was dies alles mit der Gaußschen Prozessregression zu tun hat. Ein RKHS ist der Abschluss des Vektorraums, der durch alle möglichen endlichen linearen Kombinationen aller möglichen Funktionen wobei . Dies hängt sehr eng mit der Gaußschen Prozessregression zusammen, da bei einem Gaußschen Prozess vor auf dem Raum dann der (Abschluss des) Der Raum aller möglichen posterioren Mittel, der durch Gaußsche Prozessregression erzeugt werden kann, ist genau die RKHS. Tatsächlich haben alle möglichen hinteren Mittel die FormK(X) fy(x)=k(x,y) y∈X GP(0,k(x,x)) C(X)
dh sie sind endliche lineare Kombinationen von Funktionen . Wir fragen also effektiv, ob bei einem Gaußschen Prozess vor auf für eine Funktion dort gegeben ist ist immer eine Funktion im (Schließen des) Raums aller Funktionen, die von GPR erzeugt werden können, was so nahe wie gewünscht ist .fxi(x)=k(x,xi) GP(0,k(x,x)) C(X) f∈C(X) f∗ f
Die Antwort für einige bestimmte Kernel (einschließlich des klassischen Squared Exponential-Kernels, jedoch ohne den Polynomkern) lautet Ja . Es kann bewiesen werden, dass für solche Kerne in dicht ist , dh für jedes und für jedes Toleranz gibt es ein in wie z dass . Beachten Sie die Annahmen: ist kompakt, ist stetig und ist ein stetiger Kernel mit der sogenannten universellen Approximationseigenschaft. Siehe hierK(X) C(X) f∈C(X) ϵ f∗ K(X) ||f−f∗||∞<ϵ X f k für einen vollständigen Beweis in einem allgemeineren (also komplizierten) Kontext.
Dieses Ergebnis ist viel weniger kraftvoll als es auf den ersten Blick aussieht. Selbst wenn sich im (Verschluss des) Raums des posterioren Mittels befindet, der durch GPR erzeugt werden kann, haben wir nicht bewiesen, dass es sich um das spezielle posteriore Mittel handelt, das von GPR für einen ausreichend großen Trainingssatz zurückgegeben wird, von dem Natürlich besteht der Trainingssatz aus verrauschten Beobachtungen von an den Punkten . Wir haben nicht einmal bewiesen, dass der von GPR zurückgegebene hintere Mittelwert für überhaupt konvergiert ! Dies ist tatsächlich die zweite von @Dougal vorgeschlagene Interpretation. Die Antwort auf diese Frage hängt von der Antwort auf die erste Frage ab: Wenn es keine Funktion gibtf∗ f x1,…,xn n→∞ f∗ In der RKHS, die eine "gute Annäherung" an , können wir natürlich nicht hoffen, dass der von GPR zurückgegebene hintere Mittelwert dazu konvergiert. Es ist jedoch eine andere Frage. Wenn Sie auch eine Antwort auf diese Frage haben möchten, stellen Sie bitte eine neue Frage.f
quelle