Kovarianz im Gaußschen Prozess

8

Ich bin ein wenig verwirrt über die Formel zur Berechnung der Kovarianz im Gaußschen Prozess (das Hinzufügen von Varianz verwirrt mich immer, da es nicht immer explizit bezeichnet wird). Der Grund für die Verwirrung ist, dass die Formeln in Mustererkennung und maschinellem Lernen von Bishop angegeben sind und der Gaußsche Prozess für maschinelles Lernen von Rasmussen unterschiedlich sind.

Der Mittelwert von GP ist gegeben durch die Beziehung:

μ=K(X,X)[K(X,X)+σ2I]1y

Die Varianz gemäß Bischof (Seite Nr. 308) ist:

Σ=[K(X,X)+σ2]K(X,X)[K(X,X)+σ2I]1K(X,X)

Die Varianz nach Rasmussen (Seite Nr. 16) ist:

Σ=K(X,X)K(X,X)[K(X,X)+σ2I]1K(X,X)

Mein Zweifel ist, ob die Varianz im ersten Term in RHS für die Kovarianzmatrix ist oder nicht . Oder habe ich Dinge durcheinander gebracht?Σ

Lassen Sie mich wissen, wenn ich weitere Informationen benötigen.

pkj
quelle

Antworten:

8

Der Rauschparameter ist der Parameter der Wahrscheinlichkeitsfunktion, auch Rauschfunktion genannt.σ2

Die mit ist die Varianz von (Beobachtung). Die ohne ist die Varianz von (latente Variable = Beobachtung - Rauschen). Sie sind also um voneinander entfernt, was für alle Werte der Eingangsvariablen .+σ2yfσ2x

Die Formeln sehen für mich richtig aus. Wie Sie sehen, hängt die Varianz von (die rauschfreie Beobachtung) auch vom Rauschparameter ab. Es macht auch Sinn. Ihre Schätzung des Rauschens würde die Unsicherheitsschätzung (dh die Varianz) der (geräuschlosen) latenten Variablen beeinflussen.y

Um Verwirrung zu vermeiden, würde ich sie mit und .var(y)var(f)

Noch etwas: Die beiden Ausdrücke, die Sie mit sind Skalare, keine Matrizen. Die Kovarianzmatrix ist not . ist Varianz, nicht Kovarianz, da es sich um eine einzelne D-Variable handelt (entweder oder ).ΣKΣΣ1yf

Seeda
quelle