Ich habe versucht, eine gewisse Intuition für die Regression des Gaußschen Prozesses zu gewinnen, also habe ich ein einfaches 1D-Spielzeugproblem zum Ausprobieren erstellt. Ich habe als Eingaben und als Antworten genommen. ('Inspiriert' von )y = x 2
Für die Regression habe ich eine standardmäßige quadratische exponentielle Kernelfunktion verwendet:
Ich nahm an, dass es Rauschen mit Standardabweichung , so dass die Kovarianzmatrix wurde:
Die Hyperparameter wurden durch Maximieren der Log-Wahrscheinlichkeit der Daten geschätzt. Um eine Vorhersage an einem Punkt zu treffen , habe ich den Mittelwert bzw. die Varianz wie folgt ermitteltx ⋆
σ 2 x ⋆ = k ( x ⋆ , x ⋆ ) - k T ⋆ ( K + σ 2 n I ) - 1 k ⋆
Dabei ist der Vektor der Kovarianz zwischen und den Eingaben, und ist ein Vektor der Ausgaben.x ⋆ y
Meine Ergebnisse für sind unten gezeigt. Die blaue Linie ist der Mittelwert und rote Linien markieren die Standardabweichungsintervalle.
Ich bin mir nicht sicher, ob das richtig ist. Meine Eingaben (markiert mit 'X') liegen nicht auf der blauen Linie. Die meisten Beispiele, die ich sehe, haben den Mittelwert, der die Eingaben schneidet. Ist dies ein allgemeines Merkmal, das zu erwarten ist?
quelle
Antworten:
Die mittlere Funktion, die durch die Datenpunkte geht, ist normalerweise ein Hinweis auf eine Überanpassung. Die Optimierung der Hyperparameter durch Maximierung der Grenzwahrscheinlichkeit tendiert dazu, sehr einfache Modelle zu bevorzugen, es sei denn, es gibt genügend Daten, um etwas Komplexeres zu rechtfertigen. Da Sie nur drei Datenpunkte haben, die mehr oder weniger in einer Linie mit wenig Rauschen liegen, erscheint mir das gefundene Modell ziemlich vernünftig. Im Wesentlichen können die Daten entweder als lineare zugrunde liegende Funktion mit mäßigem Rauschen oder als mäßig nichtlineare zugrunde liegende Funktion mit geringem Rauschen erklärt werden. Ersteres ist die einfachere der beiden Hypothesen und wird von "Occams Rasiermesser" bevorzugt.
quelle
Sie verwenden die Kriging-Schätzer mit einem zusätzlichen Rauschbegriff (in der Gaußschen Prozessliteratur als Nugget-Effekt bekannt). Wenn der Rauschausdruck auf Null gesetzt wurde, dh
dann würden Ihre Vorhersagen als Interpolation wirken und die Beispieldatenpunkte durchlaufen.
quelle
Das sieht für mich in Ordnung aus, im GP-Buch von Rasmussen werden definitiv Beispiele gezeigt, bei denen die mittlere Funktion nicht jeden Datenpunkt durchläuft. Beachten Sie, dass die Regressionslinie eine Schätzung für die zugrunde liegende Funktion ist, und wir gehen davon aus, dass die Beobachtungen die zugrunde liegenden Funktionswerte plus etwas Rauschen sind. Wenn die Regressionslinie auf allen drei Punkten basiert, würde dies im Wesentlichen bedeuten, dass die beobachteten Werte kein Rauschen aufweisen.
Wie von Dikran Marsupial festgestellt, ist dies ein integriertes Merkmal von Gaußschen Prozessen. Die Grenzwahrscheinlichkeit bestraft zu spezifische Modelle und bevorzugt solche, die viele Datensätze erklären können.
quelle