Nichtparametrische nichtlineare Regression mit Vorhersageunsicherheit (neben Gaußschen Prozessen)

7

Was sind die neuesten Alternativen zu Gaußschen Prozessen (GP) für nichtparametrische nichtlineare Regression mit Vorhersageunsicherheit, wenn die Größe des Trainingssatzes für Vanille-Allgemeinmediziner unerschwinglich wird, aber immer noch nicht sehr groß ist?

Details meines Problems sind:

  • Der Eingaberaum ist niedrigdimensional (XRdmit 2d20)
  • Ausgabe ist reellwertig (YR)
  • Trainingspunkte sind 103N104, ungefähr eine Größenordnung größer als bei Standard-Hausärzten (ohne Annäherungen)
  • Die zu approximierende Funktion ist eine Blackbox. wir können Kontinuität und einen relativen Grad an Glätte annehmen (z. B. würde ich eine Matérn-Kovarianzmatrix mit für einen GP verwenden)f:XYν=52
  • Für jeden abgefragten Punkt muss die Näherung den Mittelwert und die Varianz (oder ein analoges Maß für die Unsicherheit) der Vorhersage zurückgeben
  • Die Methode muss relativ schnell (in der Größenordnung von Sekunden) umschulbar sein, wenn dem Trainingssatz ein oder mehrere neue Trainingspunkte hinzugefügt werden

Jeder Vorschlag ist willkommen (ein Hinweis / eine Erwähnung auf eine Methode und warum Sie denken, dass es funktionieren würde, ist genug). Vielen Dank!

Lacerbi
quelle
1
Was ist mit spärlichen Hausärzten? Bei einer guten Platzierung der induzierenden Punkte und einer geringen Beziehung zwischen Ein- und Ausgängen wären Trainingspunkte ein Kinderspiel auf einer Xeon-Workstation. 104
DeltaIV
Danke @DeltaIV. Ich denke, dass der entscheidende Punkt in Ihrer Antwort "mit einer guten Platzierung der induzierenden Punkte" ist. Das Finden guter Induktionspunkte ( ist Blackbox) scheint ein schwieriges Problem zu sein. Welche Annäherung würden Sie empfehlen? (zB FITC?) Funktioniert es in der Praxis gut? f
Lacerbi
1
Natürlich lernen Sie ihre Position aus Daten. Nein, FITC ist VFE unterlegen. Schauen Sie hier: arxiv.org/pdf/1606.04820v1.pdf . Dimensionalität und Größe des Trainingsdatensatzes sind ähnlich wie bei Ihnen.
DeltaIV
3
Benötigen Sie unbedingt nichtparametrische und nichtlineare Regressionsmethoden? Ich weiß nichts über Ihre Anwendung, aber in der Computermechanik und Fluiddynamik (klassische Fälle, in denen eine Black Box ist) funktionieren Methoden, die der orthogonalen Polynomregression ähneln, bemerkenswert gut, dh Methoden zur komprimierten Erfassung von Polynomchaos / stochastischer Kollokation. Andernfalls können Sie MARS oder GAMs ausprobieren (GAMs sind jedoch additiv). f
DeltaIV
2
Schließlich habe ich sie nie verwendet, aber zufällige Wälder und extreme Gradientenverstärkung sind beliebte nichtparametrische nichtlineare Regressionsmethoden für hochdimensionale Probleme mit großen Trainingssätzen.
DeltaIV

Antworten:

1

A Matern Kovarianzmatrix mit ist fast zu einer Squared Exponential kernel konvergieren.ν=5/2

Daher denke ich, dass ein auf Radial Basis Function (RBF) basierender Ansatz in diesem Szenario perfekt ist. Es ist schnell, funktioniert für die Art von Black-Box-Funktion, die Sie haben, und Sie können Messungen der Unsicherheit erhalten.

Sie können alternativ Induktionspunktnäherungen für Allgemeinmediziner verwenden, sich FITC in der Literatur ansehen, aber Sie haben das gleiche Problem, wo Sie die Induktionspunkte auswählen müssen.

Neben
quelle
Vielen Dank. Ich wusste von RBFs, wusste aber nicht, dass es möglich / einfach ist, angemessene Unsicherheitsmaße für sie zu erhalten (ich dachte, dass eine RBF + -Ungewissheit so ziemlich auf einen GP mit SE-Kernel zurückgehen würde). Könnten Sie einen Ausgangspunkt für das Lesen von RBFs empfehlen und wie Sie die Unsicherheit damit berechnen können?
Lacerbi
1
Nun, es ist im Grunde eine Bayes'sche lineare Regression unter Verwendung von Basisfunktionen. Und Sie können die Basisfunktionen als Gaußsche auswählen. Sie müssen also nur Prioritäten für die Parameter zuweisen, und Sie erhalten Ihre posteriore Verteilung. Befolgen Sie die Schritte in Bishops Buch "Mustererkennung", Kapitel 6.4.1. Ich sehe auch aus Ihrem Profil, dass wir viele gemeinsame Interessen haben! Könnte schön sein, in Kontakt zu bleiben :-) Ich helfe gerne, wenn ich kann.
Neben
Ich habe mir Kapitel 6.4.1 angesehen. Wie ist das anders / schneller als bei Hausärzten? Ich verstehe, dass ich für das Training wahrscheinlich nur den Verlust über LBFGS minimieren könnte (und vielleicht gibt es sogar intelligentere Methoden). Dies ist meines Erachtens der Grund, warum RBFs schneller passen als Allgemeinmediziner (der Engpass für Allgemeinmediziner ist die Matrixinversion). Aber um die Vorhersageunsicherheit zu berechnen, muss ich die beobachteten Punkte konditionieren - erfordert dies nicht eine Inversion einer durch- Matrix? ( Anzahl der Trainingspunkte)MMM
Lacerbi
Entschuldigung, ich hätte wahrscheinlich sagen sollen, dass ich mir die Bayes'sche lineare Regression in Kapitel 3 ansehen soll. Was Sie sagen, ist richtig. Ein Bayes'sches lineares Regressionsmodell entspricht einem GP mit einer speziellen Kernelfunktion. Wenn Sie also die Varianz der Vorhersageverteilung müssen Sie die Matrix invertieren. Sie können dies auf clevere Weise tun, indem Sie lineare Gleichungssysteme vorwärts / rückwärts lösen.
Neben