Grundlegendes zur Gaußschen Prozessregression in der Funktionsansicht mit unbegrenzter Dimensionsbasis

Es wird oft gesagt, dass die Gaußsche Prozessregression (GPR) der Bayes'schen linearen Regression mit einer (möglicherweise) unendlichen Anzahl von Basisfunktionen entspricht. Ich versuche derzeit, dies im Detail zu verstehen, um eine Vorstellung davon zu bekommen, welche Art von Modellen ich mit GPR ausdrücken kann.

Glauben Sie, dass dies ein guter Ansatz ist, um GPR zu verstehen?

In dem Buch Gaußsche Prozesse für maschinelles Lernen zeigen Rasmussen und Williams, dass die Menge der Gaußschen Prozesse, die durch den parametrisierten Exponentialquadratkern kann äquivalent als Bayes'sche Regression mit vorheriger Überzeugung über die Gewichte und unendlich viele Basisfunktionen von beschrieben werden die Form Somit könnte die Parametrisierung des Kernels vollständig in eine Parametrisierung der Basis übersetzt werden funktionen.

k (x, x^{'}; l) = σ_{p}^{2} \exp (- \frac{(x - x)^{2}}{2 l^{2}})

$k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)$

w \sim N (0, σ_{p}^{2} I)

$w \sim \mathcal{N}(0,\sigma_p^2 I)$

ϕ_{c} (x; l) = \exp (- \frac{(x - c)^{2}}{2 l^{2}})

$\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right)$

Kann die Parametrisierung eines differenzierbaren Kernels immer in eine Parametrisierung der Vorgänger- und Basisfunktionen übersetzt werden oder gibt es differenzierbare Kernel, bei denen zB die Anzahl der Basisfunktionen von der Konfiguration abhängt?

Mein bisheriges Verständnis ist, dass für eine feste Kernelfunktion k (x, x ') Mercers Theorem uns sagt, dass ausgedrückt werden kann als wobei eine Funktion entweder in die reellen oder die komplexen Zahlen ist. Somit hat für einen gegebenen Kern das entsprechende Bayes'sche Regressionsmodell vor und Basisfunktionen . Somit kann jeder GP sogar als Bayes'sches lineares Regressionsmodell mit Diagonalprior formuliert werden. Wenn wir nun jedoch den Mercer-Satz für jede Konfiguration eines parametrisierten Kernels , der bei jedem differenzierbar ist $k(x,x')$

k (x, x^{'}) = \sum_{ich = 1}^{\infty} λ_{ich} ϕ_{ich} (x) ϕ_{ich} (x^{'})

$k(x,x')=\sum_{i=1}^\infty \lambda_i\phi_i(x)\phi_i(x')$

ϕ_{i}

$\phi_i$

w \sim N (0, diag ([λ_{1}^{2}, \dots]))

$w \sim \mathcal{N}(0,\text{diag}([\lambda_1^2,\ldots]))$

ϕ_{i}

$\phi_i$

k (x, x^{'}, θ)

$k(x,x',\theta)$

θ

$\theta$ die entsprechenden von verschiedenen Eigenwerten und Eigenfunktionen könnte für jede Konfiguration.

Meine nächste Frage betrifft das Inverse des Mercer-Theorems.

Welche Basisfunktionen führen zu gültigen Kerneln?

Und die Verlängerung

Welche Sätze von parametrisierten Basisfunktionen führen zu gültigen differenzierbaren Kerneln?

gaussian-process kernel-trick basis-function Julian Karls
quelle

Antworten:

Hier einige Bemerkungen. Vielleicht kann jemand anderes die Details eintragen.

1) Basisdarstellungen sind immer eine gute Idee. Es ist schwer, sie zu vermeiden, wenn Sie mit Ihrer Kovarianzfunktion tatsächlich etwas Rechnen möchten. Die Basiserweiterung kann Ihnen eine Annäherung an den Kernel und etwas geben, mit dem Sie arbeiten können. Die Hoffnung ist, dass Sie eine Basis finden, die für das zu lösende Problem Sinn macht.

$\theta$ $\theta$

Normalerweise ist die Anzahl der Basisfunktionen (abzählbar) unendlich, sodass die Anzahl nicht mit dem Parameter variiert, es sei denn, einige Werte haben den Kernel entartet.

$w \sim \mathcal{N}(0,diag[\lambda_1^2, \ldots])$ $w$ $diag[\lambda_1^2, \ldots]$

$\lambda_i$ $\lambda_i$ $x$

Wenn die Basisfunktionen nicht orthogonal sind, ist es schwieriger zu zeigen, dass eine daraus definierte Kovarianz positiv definit ist. Offensichtlich handelt es sich in diesem Fall nicht um eine Eigenerweiterung, sondern um eine andere Annäherung der interessierenden Funktion.

Ich glaube jedoch nicht, dass die Leute normalerweise von einer Reihe von Funktionen ausgehen und dann versuchen, einen Kovarianzkernel daraus zu erstellen.

RE: Differenzierbarkeit des Kernels und Differenzierbarkeit der Basisfunktionen. Ich kenne die Antwort auf diese Frage nicht wirklich, aber ich würde die folgende Bemerkung machen.

Die Funktionsanalyse erfolgt durch Approximation von Funktionen (aus einem unendlichen dimensionalen Raum) durch endliche Summen einfacherer Funktionen. Damit dies funktioniert, hängt alles von der Art der Konvergenz ab. Wenn Sie an einer kompakten Menge mit starken Konvergenzeigenschaften (gleichmäßige Konvergenz oder absolute Summierbarkeit) für die gewünschten Funktionen arbeiten, erhalten Sie in der Regel das gewünschte intuitive Ergebnis: Die Eigenschaften der einfachen Funktionen werden übernommen die Grenzwertfunktion - wenn der Kernel eine differenzierbare Funktion eines Parameters ist, müssen die Erweiterungsfunktionen differenzierbare Funktionen desselben Parameters sein und umgekehrt. Bei schwächeren Konvergenzeigenschaften oder nicht kompakten Domänen tritt dies nicht auf. Meiner Erfahrung nach gibt es zu jeder "vernünftigen" Idee ein Gegenbeispiel.

Hinweis: Um möglichen Verwirrungen der Leser dieser Frage vorzubeugen, ist zu beachten, dass die Gaußsche Erweiterung von Punkt 1 kein Beispiel für die Eigenerweiterung von Punkt 2 ist.

Placidia
quelle