Zusammenführen von Beobachtungen im Gaußschen Prozess

Ich verwende den Gaußschen Prozess (GP) für die Regression.

In meinem Problem ist es durchaus üblich, dass zwei oder mehr Datenpunkte relativ zu den Längenskalen des Problems nahe beieinander liegen. Beobachtungen können auch extrem laut sein. Um die Berechnungen zu beschleunigen und die Messgenauigkeit zu verbessern , erscheint es naheliegend, Cluster von Punkten zusammenzuführen / zu integrieren, die nahe beieinander liegen, solange mir Vorhersagen auf einer größeren Längenskala wichtig sind. $\vec{x}^{(1)},\vec{x}^{(2)},\ldots$

Ich frage mich, was ein schneller, aber halbprinzipierter Weg ist, dies zu tun.

Wenn sich zwei Datenpunkte perfekt überlappen, , und das Beobachtungsrauschen (dh die Wahrscheinlichkeit) Gaußsch ist, möglicherweise heteroskedastisch, aber bekannt , scheint die natürliche Vorgehensweise sie in einem einzigen zusammenzuführen Datenpunkt mit: $\vec{x}^{(1)} = \vec{x}^{(2)}$

, für. $\vec{\bar{x}} \equiv \vec{x}^{(k)}$ $k=1,2$
Beobachteter Wert der ein Durchschnitt der beobachteten Werte gewichtet mit ihrer relativen Genauigkeit: $\bar{y}$ $y^{(1)}, y^{(2)}$ . $\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)}$
$\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})}$

Wie soll ich jedoch zwei Punkte zusammenführen, die nahe beieinander liegen, sich aber nicht überlappen?

$\vec{\bar{x}}$ sollte immer noch ein gewichteter Durchschnitt der beiden Positionen sein, wiederum unter Verwendung der relativen Zuverlässigkeit. Die Begründung ist ein Schwerpunktargument (dh stellen Sie sich eine sehr genaue Beobachtung als einen Stapel weniger genauer Beobachtungen vor).
Zum $\bar{y}$ gleiche Formel wie oben.
Für das mit der Beobachtung verbundene Rauschen frage ich mich, ob ich zusätzlich zu der obigen Formel einen Korrekturterm zum Rauschen hinzufügen sollte, da ich den Datenpunkt bewege. Im Wesentlichen würde ich eine Zunahme der damit verbundenen Unsicherheit erhalten $\sigma_f^2$ und $\ell^2$ (jeweils Signalvarianz und Längenskala der Kovarianzfunktion). Ich bin mir der Form dieses Begriffs nicht sicher, aber ich habe einige vorläufige Ideen, wie ich ihn angesichts der Kovarianzfunktion berechnen kann.

Bevor ich fortfuhr, fragte ich mich, ob da draußen schon etwas war. und wenn dies eine vernünftige Vorgehensweise zu sein scheint oder es bessere schnelle Methoden gibt.

Das nächste, was ich in der Literatur finden konnte, ist dieses Papier: E. Snelson und Z. Ghahramani, Sparse Gaussian Processes using Pseudo-Inputs , NIPS '05; Ihre Methode ist jedoch (relativ) kompliziert und erfordert eine Optimierung, um die Pseudo-Eingänge zu finden.

regression machine-learning gaussian-process Lacerbi
quelle

Übrigens schätze ich, dass ich ungefähre Inferenz oder einige groß angelegte Methoden verwenden könnte, aber dies ist ein weiterer Punkt.

Lacerbi

Antworten:

Gute Frage und was Sie vorschlagen, klingt vernünftig. Ich persönlich würde jedoch anders vorgehen, um effizient zu sein. Wie Sie sagten, liefern zwei nahe beieinander liegende Punkte nur wenige zusätzliche Informationen, und daher sind die effektiven Freiheitsgrade des Modells geringer als die Anzahl der beobachteten Datenpunkte. In einem solchen Fall kann es sich lohnen, die in GPML gut beschriebene Nystroms-Methode zu verwenden (Kapitel über spärliche Näherungen finden Sie unter http://www.gaussianprocess.org/gpml/ ). Die Methode ist sehr einfach zu implementieren und wurde kürzlich von Rudi et al. Als sehr genau erwiesen. ( http://arxiv.org/abs/1507.04717 )

j__
quelle

Danke, Nystroms Methode scheint ein interessanter Ansatz zu sein, ich werde sie untersuchen. In meinem ersten Beitrag hatte ich jedoch vergessen zu erwähnen, dass das Rauschen in den Beobachtungen sehr hoch sein kann (möglicherweise größer als das Signal), so dass die Mittelung von Punkten in der Nähe zusätzliche Informationen liefert.

Lacerbi

Nun, das ist eigentlich noch mehr ein Grund, die Nystroms-Methode zu verwenden. Ein hohes Rauschen verringert die effektiven Freiheitsgrade. Wenn also nur die ersten m Eigenwerte das Signal halten und der Rest einfach Rauschen ist, lässt die Nystrom-Methode alle weniger als das erste m fallen. Ich denke, es wird die Rechnung für das passen, was Sie suchen. Viel Glück!

Die Nystrom-Methode würde ich vorschlagen (+1). Das einfache Zusammenführen der Punkte zu einem Punkt kann zu Problemen bei der Schätzung der Grenzwahrscheinlichkeit des Modells führen, da die beiden echten Datenpunkte wahrscheinlich nicht den gleichen Effekt wie ein einzelner Punkt haben. Mein Rat wäre, die beiden Punkte getrennt zu halten, aber einen Weg zu finden, die Berechnung kostengünstiger zu gestalten, was die Nystrom-Methode erreichen sollte

Dikran Marsupial

Welche Art von Problemen? Wenn Sie den Fall von zwei überlappenden Punkten mit Gaußschem Rauschen betrachten, ist die Mittelungsmethode genau (solange Sie die Abnahme des Beobachtungsrauschens verfolgen). Ich verstehe nicht, warum dasselbe Argument nicht für Punkte funktionieren sollte, die nahe an der Längenskala des Problems liegen (wobei sich die Annäherung mit zunehmender Entfernung verschlechtert). Vielleicht ist es die Methode von Nystrom, die prinzipieller funktioniert - ich muss die Details noch verstehen. Ich bin neugierig, es mit der Mittelungsmethode zu vergleichen, sowohl hinsichtlich der Genauigkeit als auch der Geschwindigkeit. Danke

Lacerbi

@Seeda Wir verwenden Nystrom nicht als Vorkonditionierung, sondern effektiv als die übliche zeitlich reduzierte Konpkexität, also ja.

27.

Ich habe auch das Zusammenführen von Beobachtungen bei der Durchführung der Gaußschen Prozessregression untersucht. In meinem Problem habe ich nur eine Kovariate.

Ich bin mir nicht sicher, ob ich der Nystrom-Näherung vorzuziehen bin. Insbesondere wenn eine ausreichende Näherung basierend auf einem zusammengeführten Datensatz gefunden werden kann, können Berechnungen schneller sein als bei Verwendung der Nystrom-Näherung.

Nachfolgend sind einige Diagramme aufgeführt, die 1000 Datenpunkte und den Mittelwert des hinteren GP, den Mittelwert des hinteren GP mit zusammengeführten Datensätzen und den Mittelwert des hinteren GP unter Verwendung der Nystrom-Näherung zeigen. Die Datensätze wurden basierend auf gleich großen Eimern der geordneten Kovariate gruppiert. Die Approximationsreihenfolge bezieht sich auf die Anzahl der Gruppen beim Zusammenführen von Datensätzen und die Reihenfolge der Nystrom-Approximation. Der Zusammenführungsansatz und die Nystrom-Näherung führen beide zu Ergebnissen, die mit der Standard-GP-Regression identisch sind, wenn die Näherungsreihenfolge gleich der Anzahl der Punkte ist.

In diesem Fall erscheint der Zusammenführungsansatz vorzuziehen, wenn die Reihenfolge der Näherung 10 ist. Wenn die Reihenfolge 20 ist, ist der Mittelwert aus der Nystrom-Näherung visuell nicht vom exakten GP-Mittelwert zu unterscheiden, obwohl der Mittelwert, der auf der Zusammenführung von Beobachtungen basiert, wahrscheinlich gut genug ist. Wenn die Reihenfolge 5 ist, sind beide ziemlich schlecht.

Richard Redding
quelle