Vorteile von Gaußschen Prozessen

13

Ich habe diese Verwirrung in Bezug auf die Vorteile von Gaußschen Prozessen. Ich meine, es mit einer einfachen linearen Regression zu vergleichen, bei der wir definiert haben, dass die lineare Funktion die Daten modelliert.

In Gaußschen Prozessen definieren wir jedoch die Verteilung der Funktionen, dh wir definieren nicht speziell, dass die Funktion linear sein soll. Wir können einen Prior über der Funktion definieren, der der Gaußsche Prior ist, der Merkmale wie die Glätte der Funktion und alles definiert.

Wir müssen also nicht explizit definieren, wie das Modell aussehen soll. Ich habe jedoch Fragen. Wir haben eine marginale Wahrscheinlichkeit und können damit die Kovarianzfunktionsparameter des Gaußschen Prior einstellen. Dies ähnelt also der Definition der Art der Funktion, die es sein sollte, nicht wahr?

Es läuft darauf hinaus, die Parameter zu definieren, obwohl es sich bei GP um Hyperparameter handelt. Zum Beispiel in diesem Artikel . Sie haben definiert, dass die mittlere Funktion des Hausarztes so etwas wie ist

m(x)=ax2+bx+ci.e. a second order polynomial.

Das Modell / die Funktion ist also definitiv definiert, nicht wahr? Was ist der Unterschied bei der Definition der linearen Funktion wie im LR?

Ich habe einfach nicht verstanden, was der Vorteil von GP ist

user34790
quelle

Antworten:

7

Erinnern wir uns an einige Formeln zur Gaußschen Prozessregression. Angenommen, wir haben eine Probe . Für dieses Beispiel hat loglikelihood die Form: wobei ist die Beispielkovarianzmatrix. Dort ist eine Kovarianzfunktion mit Parametern, die wir mithilfe der Loglikelihood-Maximierung einstellen. Die Vorhersage (posterior mean) für einen neuen Punkt hat die Form: esD=(X,y)={(xi,yi)}i=1N

L=12(log|K|+yTK1y),
K={k(xi,xj)}i,j=1Nk(xi,xj)x
y^(x)=kK1y,
k={k(x,xi)}i=1N ist ein Vektor von Kovarianzen zwischen neuen Punkten und Stichprobenpunkten.

Beachten Sie nun, dass die Regression von Gaußschen Prozessen exakte lineare Modelle modellieren kann. Angenommen, die Kovarianzfunktion hat die Form . In diesem Fall hat die Vorhersage die Form: Die Identität ist wahr, wenn nicht singulär ist, was nicht der Fall ist, aber dies ist kein Problem, wenn wir die Kovarianzmatrix-Regularisierung verwenden. Die rechte Seite ist also die genaue Formel für die lineare Regression, und wir können eine lineare Regression mit Gaußschen Prozessen unter Verwendung der richtigen Kovarianzfunktion durchführen.k(xi,xj)=xiTxj

y^(x)=xTXT(XXT)1y=xT(XTX)1XTy.
(XXT)1

Betrachten wir nun eine Gaußsche Prozessregression mit einer anderen Kovarianzfunktion (z. B. quadratische exponentielle Kovarianzfunktion der Form , dort ist eine Matrix von Hyperparametern, die wir einstellen). Offensichtlich ist in diesem Fall der hintere Mittelwert keine lineare Funktion (siehe Bild).exp((xixj)TA1(xixj))A

Geben Sie hier die Bildbeschreibung ein.

Der Vorteil besteht also darin, dass wir nichtlineare Funktionen unter Verwendung einer geeigneten Kovarianzfunktion modellieren können (wir können eine nach dem Stand der Technik ausgewählte Funktion auswählen, in den meisten Fällen ist eine quadratische exponentielle Kovarianzfunktion eine ziemlich gute Wahl). Die Quelle der Nichtlinearität ist nicht die von Ihnen erwähnte Trendkomponente, sondern die Kovarianzfunktion.

Alexey Zaytsev
quelle
3
Ich würde sagen, dies ist nur ein Vorteil von GP, ​​der auch mit anderen Kernel-Methoden geteilt wird. Probabilistisch zu sein und aus dem Bayes'schen Rahmen zu kommen, ist ein weiterer Vorteil von GP.
Seeda
2

Für mich ist der größte Vorteil von Gaußschen Prozessen die inhärente Fähigkeit, die Unsicherheit des Modells zu modellieren. Dies ist unglaublich nützlich, da ich angesichts des erwarteten Werts einer Funktion und der entsprechenden Varianz eine Metrik (dh eine Erfassungsfunktion ) definieren kann, die mir sagen kann, z. B. was der Punkt , an dem ich meine zugrunde liegende Funktion at bewerten sollte führen zum höchsten (erwartungsgemäßen) Wert von . Dies bildet die Grundlage der Bayes'schen Optimierung .xff(x)

Sie kennen wahrscheinlich den Kompromiss zwischen Exploration und Exploitation . Wir wollen ein für eine Funktion (deren Auswertung oft teuer ist) und müssen daher sparsam darüber sein, welches wir zur Auswertung von auswählen . Wir werden uns wahrscheinlich Orte in der Nähe der Punkte ansehen wollen, an denen wir wissen, dass die Funktion einen hohen Wert hat (Ausnutzung), oder an den Punkten, an denen wir keine Ahnung vom Wert der Funktion haben (Erkundung). Gaußsche Prozesse geben uns die notwendigen Informationen, um eine Entscheidung bezüglich der nächsten Bewertung zu treffen: Mittelwert und Kovarianzmatrix (Unsicherheit), wodurch beispielsweise teure Black-Box-Funktionen optimiert werden können.maxfxfμΣ

Tomasz Bartkowiak
quelle