Gaußsches Prozessregressionsspielzeugproblem

9

Ich habe versucht, eine gewisse Intuition für die Regression des Gaußschen Prozesses zu gewinnen, also habe ich ein einfaches 1D-Spielzeugproblem zum Ausprobieren erstellt. Ich habe als Eingaben und als Antworten genommen. ('Inspiriert' von )xi={1,2,3}y = x 2yi={1,4,9}y=x2

Für die Regression habe ich eine standardmäßige quadratische exponentielle Kernelfunktion verwendet:

k(xp,xq)=σf2exp(12l2|xpxq|2)

Ich nahm an, dass es Rauschen mit Standardabweichung , so dass die Kovarianzmatrix wurde:σn

Kpq=k(xp,xq)+σn2δpq

Die Hyperparameter wurden durch Maximieren der Log-Wahrscheinlichkeit der Daten geschätzt. Um eine Vorhersage an einem Punkt zu treffen , habe ich den Mittelwert bzw. die Varianz wie folgt ermitteltx (σn,l,σf)x

σ 2 x = k ( x , x ) - k T ( K + σ 2 n I ) - 1 k

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

Dabei ist der Vektor der Kovarianz zwischen und den Eingaben, und ist ein Vektor der Ausgaben.x ykxy

Meine Ergebnisse für sind unten gezeigt. Die blaue Linie ist der Mittelwert und rote Linien markieren die Standardabweichungsintervalle.1<x<3

Die Ergebnisse

Ich bin mir nicht sicher, ob das richtig ist. Meine Eingaben (markiert mit 'X') liegen nicht auf der blauen Linie. Die meisten Beispiele, die ich sehe, haben den Mittelwert, der die Eingaben schneidet. Ist dies ein allgemeines Merkmal, das zu erwarten ist?

Comp_Warrior
quelle
1
Wenn ich raten müsste, gab es in den Beispielen, die Sie betrachteten, keinen Restfehler. In diesem Fall würde die Linie alle Punkte durchlaufen.
Kerl
@ Guy genau richtig.

Antworten:

10

Die mittlere Funktion, die durch die Datenpunkte geht, ist normalerweise ein Hinweis auf eine Überanpassung. Die Optimierung der Hyperparameter durch Maximierung der Grenzwahrscheinlichkeit tendiert dazu, sehr einfache Modelle zu bevorzugen, es sei denn, es gibt genügend Daten, um etwas Komplexeres zu rechtfertigen. Da Sie nur drei Datenpunkte haben, die mehr oder weniger in einer Linie mit wenig Rauschen liegen, erscheint mir das gefundene Modell ziemlich vernünftig. Im Wesentlichen können die Daten entweder als lineare zugrunde liegende Funktion mit mäßigem Rauschen oder als mäßig nichtlineare zugrunde liegende Funktion mit geringem Rauschen erklärt werden. Ersteres ist die einfachere der beiden Hypothesen und wird von "Occams Rasiermesser" bevorzugt.

Dikran Beuteltier
quelle
Danke für die Eingabe. Können Sie mir mehr über "Überanpassung" erzählen? ist es ein positives / negatives Merkmal?
Comp_Warrior
Überanpassung ist eine negative Sache. Dies bedeutet im Grunde, dass das Modell die zufällige Variation in den Daten speichert, was die Generalisierungsleistung tendenziell verschlechtert. Idealerweise soll das Modell die zugrunde liegende Form der Daten lernen und dabei das Rauschen ignorieren, das sie verunreinigt. Die meisten guten Lehrbücher für maschinelles Lernen werden dies in einem frühen Kapitel behandeln.
Dikran Beuteltier
nur aus Interesse, warum die Abstimmung?
Dikran Marsupial
Ich habe dich nicht herabgestimmt; in der Tat habe ich gestimmt!
Comp_Warrior
2
kein Problem Comp_Warrior, ich dachte nicht, dass du es bist, aber jemand hat meine Antwort abgelehnt und ich würde mich über ein Feedback freuen, warum. Wir sind alle fehlbar und wenn ich etwas falsches in meiner Antwort habe, bin ich sehr daran interessiert, es zu korrigieren.
Dikran Beuteltier
7

Sie verwenden die Kriging-Schätzer mit einem zusätzlichen Rauschbegriff (in der Gaußschen Prozessliteratur als Nugget-Effekt bekannt). Wenn der Rauschausdruck auf Null gesetzt wurde, dh

σn2δpq=0

dann würden Ihre Vorhersagen als Interpolation wirken und die Beispieldatenpunkte durchlaufen.


quelle
3

Das sieht für mich in Ordnung aus, im GP-Buch von Rasmussen werden definitiv Beispiele gezeigt, bei denen die mittlere Funktion nicht jeden Datenpunkt durchläuft. Beachten Sie, dass die Regressionslinie eine Schätzung für die zugrunde liegende Funktion ist, und wir gehen davon aus, dass die Beobachtungen die zugrunde liegenden Funktionswerte plus etwas Rauschen sind. Wenn die Regressionslinie auf allen drei Punkten basiert, würde dies im Wesentlichen bedeuten, dass die beobachteten Werte kein Rauschen aufweisen.

σn=0

l

ll

Wie von Dikran Marsupial festgestellt, ist dies ein integriertes Merkmal von Gaußschen Prozessen. Die Grenzwahrscheinlichkeit bestraft zu spezifische Modelle und bevorzugt solche, die viele Datensätze erklären können.

Max S.
quelle