Ich verwende den Gaußschen Prozess (GP) für die Regression.
In meinem Problem ist es durchaus üblich, dass zwei oder mehr Datenpunkte relativ zu den Längenskalen des Problems nahe beieinander liegen. Beobachtungen können auch extrem laut sein. Um die Berechnungen zu beschleunigen und die Messgenauigkeit zu verbessern , erscheint es naheliegend, Cluster von Punkten zusammenzuführen / zu integrieren, die nahe beieinander liegen, solange mir Vorhersagen auf einer größeren Längenskala wichtig sind.
Ich frage mich, was ein schneller, aber halbprinzipierter Weg ist, dies zu tun.
Wenn sich zwei Datenpunkte perfekt überlappen, , und das Beobachtungsrauschen (dh die Wahrscheinlichkeit) Gaußsch ist, möglicherweise heteroskedastisch, aber bekannt , scheint die natürliche Vorgehensweise sie in einem einzigen zusammenzuführen Datenpunkt mit:
, fürk=1,2.
Beobachteter Wert der ein Durchschnitt der beobachteten Werte y ( 1 ) , y ( 2 ) ist, gewichtet mit ihrer relativen Genauigkeit: ˉ y = σ 2 y ( → x ( 2 ) ).
Wie soll ich jedoch zwei Punkte zusammenführen, die nahe beieinander liegen, sich aber nicht überlappen?
sollte immer noch ein gewichteter Durchschnitt der beiden Positionen sein, wiederum unter Verwendung der relativen Zuverlässigkeit. Die Begründung ist ein Schwerpunktargument (dh stellen Sie sich eine sehr genaue Beobachtung als einen Stapel weniger genauer Beobachtungen vor).
Zum gleiche Formel wie oben.
Für das mit der Beobachtung verbundene Rauschen frage ich mich, ob ich zusätzlich zu der obigen Formel einen Korrekturterm zum Rauschen hinzufügen sollte, da ich den Datenpunkt bewege. Im Wesentlichen würde ich eine Zunahme der damit verbundenen Unsicherheit erhalten und (jeweils Signalvarianz und Längenskala der Kovarianzfunktion). Ich bin mir der Form dieses Begriffs nicht sicher, aber ich habe einige vorläufige Ideen, wie ich ihn angesichts der Kovarianzfunktion berechnen kann.
Bevor ich fortfuhr, fragte ich mich, ob da draußen schon etwas war. und wenn dies eine vernünftige Vorgehensweise zu sein scheint oder es bessere schnelle Methoden gibt.
Das nächste, was ich in der Literatur finden konnte, ist dieses Papier: E. Snelson und Z. Ghahramani, Sparse Gaussian Processes using Pseudo-Inputs , NIPS '05; Ihre Methode ist jedoch (relativ) kompliziert und erfordert eine Optimierung, um die Pseudo-Eingänge zu finden.
Antworten:
Gute Frage und was Sie vorschlagen, klingt vernünftig. Ich persönlich würde jedoch anders vorgehen, um effizient zu sein. Wie Sie sagten, liefern zwei nahe beieinander liegende Punkte nur wenige zusätzliche Informationen, und daher sind die effektiven Freiheitsgrade des Modells geringer als die Anzahl der beobachteten Datenpunkte. In einem solchen Fall kann es sich lohnen, die in GPML gut beschriebene Nystroms-Methode zu verwenden (Kapitel über spärliche Näherungen finden Sie unter http://www.gaussianprocess.org/gpml/ ). Die Methode ist sehr einfach zu implementieren und wurde kürzlich von Rudi et al. Als sehr genau erwiesen. ( http://arxiv.org/abs/1507.04717 )
quelle
Ich habe auch das Zusammenführen von Beobachtungen bei der Durchführung der Gaußschen Prozessregression untersucht. In meinem Problem habe ich nur eine Kovariate.
Ich bin mir nicht sicher, ob ich der Nystrom-Näherung vorzuziehen bin. Insbesondere wenn eine ausreichende Näherung basierend auf einem zusammengeführten Datensatz gefunden werden kann, können Berechnungen schneller sein als bei Verwendung der Nystrom-Näherung.
Nachfolgend sind einige Diagramme aufgeführt, die 1000 Datenpunkte und den Mittelwert des hinteren GP, den Mittelwert des hinteren GP mit zusammengeführten Datensätzen und den Mittelwert des hinteren GP unter Verwendung der Nystrom-Näherung zeigen. Die Datensätze wurden basierend auf gleich großen Eimern der geordneten Kovariate gruppiert. Die Approximationsreihenfolge bezieht sich auf die Anzahl der Gruppen beim Zusammenführen von Datensätzen und die Reihenfolge der Nystrom-Approximation. Der Zusammenführungsansatz und die Nystrom-Näherung führen beide zu Ergebnissen, die mit der Standard-GP-Regression identisch sind, wenn die Näherungsreihenfolge gleich der Anzahl der Punkte ist.
In diesem Fall erscheint der Zusammenführungsansatz vorzuziehen, wenn die Reihenfolge der Näherung 10 ist. Wenn die Reihenfolge 20 ist, ist der Mittelwert aus der Nystrom-Näherung visuell nicht vom exakten GP-Mittelwert zu unterscheiden, obwohl der Mittelwert, der auf der Zusammenführung von Beobachtungen basiert, wahrscheinlich gut genug ist. Wenn die Reihenfolge 5 ist, sind beide ziemlich schlecht.
quelle