Zweifel an der Ableitung von Gaußschen Prozessregressionsgleichungen in einer Arbeit

9

Ich lese diesen Papiervorabdruck und habe Schwierigkeiten, die Gleichungen für die Gaußsche Prozessregression abzuleiten. Sie verwenden die Einstellung und Notation von Rasmussen & Williams . Somit wird additives, mittleres, stationäres und normalverteiltes Rauschen mit Varianz angenommen:σnoise2

y=f(x)+ϵ,ϵN(0,σnoise2)

Für wird ein GP vor dem Mittelwert Null angenommen , was bedeutet, dass , ist ein Gaußscher Vektor mit Mittelwert 0 und Kovarianzmatrixd N f = { f ( x 1 ) , , f ( x d ) }f(x) dNf={f(x1),,f(xd)}

Σd=(k(x1,x1)k(x1,xd)k(xd,x1)k(xd,xd))

Von nun an gehen wir davon aus, dass Hyperparameter bekannt sind. Dann ist Gleichung (4) des Papiers offensichtlich:

p(f,f)=N(0,(Kf,fKf,fKf,fKf,f))

Hier kommen die Zweifel:

  1. Gleichung (5):

    p(y|f)=N(f,σnoise2I)

    E [ y | f ] = f0 fE[f]=0 , aber ich denke denn wenn ich auf konditioniere , dann wobei ein konstanter Vektor ist und nur zufällig ist. Richtig?E[y|f]=f0fy=c+ϵcϵ

  2. Wie auch immer, es ist Gleichung (6), die für mich dunkler ist:

    p(f,f|y)=p(f,f)p(y|f)p(y)

    Das ist nicht die übliche Form des Bayes-Theorems. Der Satz von Bayes wäre

    p(f,f|y)=p(f,f)p(y|f,f)p(y)

    Ich verstehe irgendwie, warum die beiden Gleichungen gleich sind: Intuitiv hängt der Antwortvektor nur vom entsprechenden latenten Vektor , also abhängig von oder von sollte zur gleichen Verteilung führen. Dies ist jedoch eine Intuition, kein Beweis! Kannst du mir helfen zu zeigen warum?yff(f,f)

    p(y|f,f)=p(y|f)
DeltaIV
quelle

Antworten:

1
  1. Wenn wir reparieren , kommt jede Unsicherheit in vom Rauschen. Für Gleichung (5) im Artikel haben wir also das gegebene wir haben an jedem Punkt unabhängiges Rauschen mit Varianz und Mittelwert Null . Wir addieren den Anfangsmittelwert und erhalten die Antwort.fyfσnoise20
  2. Eine Möglichkeit, die vorgeschlagene Gleichheit zu beweisen, besteht darin, die Verteilung unter zu finden die linke Seite und auf der rechten Seite der Qualität. Beide sind Gaußsch, für die linke Seite kennen wir die Antwort bereits. Für die rechte Seite gehen wir ähnlich vor. Lassen Sie uns die bedingte Verteilung für . Aus dem Ergebnis des ersten Teils wissen wir: Mit Hilfe von Wahrscheinlichkeitsregeln ist es einfach, aus
    p(y|f,f)=p(y|f)
    (y,y)
    p(y,y|f,f)=N((f,f),σnoise2I).
    y(y,y), da die Kovarianzmatrix diagonal ist und die Vektoren und unabhängig sind. Auf diese Weise erhalten wir: yy
    p(y|f,f)=N(f,σnoise2I)=p(y|f).
Alexey Zaytsev
quelle