Hat der Gaußsche Prozess (Regression) die universelle Approximationseigenschaft?

10

Kann eine stetige Funktion auf [a, b], bei der a und b reelle Zahlen sind, durch Gaußsche Prozesse (Regression) angenähert werden oder der Funktion (in einer Norm) willkürlich nahe kommen?

Michael D.
quelle
1
Sei genauer!
Henry.L
1
Ja! Nun, eigentlich hängt es von der Kovarianzfunktion ab, aber für einige von ihnen ist dies der Fall . Dustin Tran et al. erwies sich auch als universeller Approximationssatz im Bayes'schen Rahmen für den Variations-Gauß-Prozess , der aufgrund der Verzerrungsfunktionen ein komplexeres Modell darstellt, aber sehr eng miteinander verbunden ist. Ich werde eine Antwort schreiben, wenn die Frage erneut geöffnet wird. PS Beachten Sie, dass die universelle Approximation wie bei neuronalen Netzen nur für eine kompakte Menge gilt, nicht für alle Rp .
DeltaIV
3
Die Aussage der "universellen Approximation" in dieser Frage scheint wenig oder gar nichts mit der Aussage im Wikipedia-Artikel zu tun zu haben. In der Tat ist nicht einmal klar, wie man eine Funktion mit einem Prozess approximieren könnte . Könnten Sie näher erläutern, was Sie fragen möchten?
whuber
5
@whuber Obwohl die technischen Details etwas locker sein mögen, bedeutet die Frage meiner Meinung nach im Wesentlichen: "Gibt es für eine Eingabefunktion eine Realisierung eines bestimmten GP, ​​der willkürlich nahe an (in einer bestimmten Norm)?" Oder vielleicht: "Wenn wir unendlich viele Abtastpunkte von einer Funktion und mit diesen Daten eine Standard-GP-Inferenz durchführen, nähert sich die erlernte hintere mittlere Funktion der wahren Funktion (in gewissem Sinne)?" Diese beiden Eigenschaften sind natürlich unterschiedlich, aber ich würde sie als nah genug betrachten, um verantwortlich zu sein (und daher die fünfte Wiedereröffnungsabstimmung abgeben). ffff
Dougal
1
Vielleicht möchten Sie Konvergenz statt Annäherung beweisen. Ansonsten ist der Beweis einfach: Sie können die Funktion wie zuvor für den Mittelwert übernehmen. Es ist nicht viel mehr als , aber es funktioniert. x=x
Karel Macek

Antworten:

16

Wie @Dougal bemerkt, gibt es zwei verschiedene Möglichkeiten, wie Ihre Frage interpretiert werden kann. Sie sind eng miteinander verbunden, auch wenn es nicht so scheint.

Die erste Interpretation lautet: Sei eine kompakte Teilmenge von (Kompaktheit ist für alle folgenden Punkte von grundlegender Bedeutung !!!), sei a kontinuierliche Kovarianzfunktion (oder Kernel), definiert auf , und bezeichnet mit den normierten Raum kontinuierlicher Funktionen auf , ausgestattet mit der maximalen Norm . Für jede Funktion kann durch eine Funktion im RKHS (Reproducing Kernel Hilbert Space), die an eine vorgegebene Toleranz angenähert werdenXRdk(x,x)X×XC(X)X||||fC(X)fϵk? Sie fragen sich vielleicht, was ein RKHS ist und was dies alles mit der Gaußschen Prozessregression zu tun hat. Ein RKHS ist der Abschluss des Vektorraums, der durch alle möglichen endlichen linearen Kombinationen aller möglichen Funktionen wobei . Dies hängt sehr eng mit der Gaußschen Prozessregression zusammen, da bei einem Gaußschen Prozess vor auf dem Raum dann der (Abschluss des) Der Raum aller möglichen posterioren Mittel, der durch Gaußsche Prozessregression erzeugt werden kann, ist genau die RKHS. Tatsächlich haben alle möglichen hinteren Mittel die FormK(X)fy(x)=k(x,y)yXGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

dh sie sind endliche lineare Kombinationen von Funktionen . Wir fragen also effektiv, ob bei einem Gaußschen Prozess vor auf für eine Funktion dort gegeben ist ist immer eine Funktion im (Schließen des) Raums aller Funktionen, die von GPR erzeugt werden können, was so nahe wie gewünscht ist .fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)ff

Die Antwort für einige bestimmte Kernel (einschließlich des klassischen Squared Exponential-Kernels, jedoch ohne den Polynomkern) lautet Ja . Es kann bewiesen werden, dass für solche Kerne in dicht ist , dh für jedes und für jedes Toleranz gibt es ein in wie z dass . Beachten Sie die Annahmen: ist kompakt, ist stetig und ist ein stetiger Kernel mit der sogenannten universellen Approximationseigenschaft. Siehe hierK(X)C(X)fC(X)ϵfK(X)||ff||<ϵXfk für einen vollständigen Beweis in einem allgemeineren (also komplizierten) Kontext.

Dieses Ergebnis ist viel weniger kraftvoll als es auf den ersten Blick aussieht. Selbst wenn sich im (Verschluss des) Raums des posterioren Mittels befindet, der durch GPR erzeugt werden kann, haben wir nicht bewiesen, dass es sich um das spezielle posteriore Mittel handelt, das von GPR für einen ausreichend großen Trainingssatz zurückgegeben wird, von dem Natürlich besteht der Trainingssatz aus verrauschten Beobachtungen von an den Punkten . Wir haben nicht einmal bewiesen, dass der von GPR zurückgegebene hintere Mittelwert für überhaupt konvergiert ! Dies ist tatsächlich die zweite von @Dougal vorgeschlagene Interpretation. Die Antwort auf diese Frage hängt von der Antwort auf die erste Frage ab: Wenn es keine Funktion gibtffx1,,xnnfIn der RKHS, die eine "gute Annäherung" an , können wir natürlich nicht hoffen, dass der von GPR zurückgegebene hintere Mittelwert dazu konvergiert. Es ist jedoch eine andere Frage. Wenn Sie auch eine Antwort auf diese Frage haben möchten, stellen Sie bitte eine neue Frage.f

DeltaIV
quelle