Ich wollte nur sehen, ob jemand Erfahrung mit der Anwendung der Gaußschen Prozessregression (GPR) auf hochdimensionale Datensätze hat. Ich untersuche einige der verschiedenen spärlichen GPR-Methoden (z. B. spärliche Pseudo-Eingänge GPR), um herauszufinden, was für hochdimensionale Datensätze funktionieren könnte, bei denen die Auswahl von Merkmalen idealerweise Teil des Parameterauswahlprozesses ist.
Vorschläge zu Papieren / Code / oder verschiedenen Methoden zum Ausprobieren sind auf jeden Fall willkommen.
Vielen Dank.
Antworten:
Gaußsche Prozessmodelle eignen sich im Allgemeinen gut für hochdimensionale Datensätze (ich habe sie mit Microarray-Daten usw. verwendet). Der Schlüssel liegt in der Auswahl guter Werte für die Hyperparameter (die die Komplexität des Modells auf ähnliche Weise wie die Regularisierung effektiv steuern).
Sparse-Methoden und Pseudo-Eingabemethoden eignen sich eher für Datensätze mit einer großen Anzahl von Stichproben (> ca. 4000 für meinen Computer) als für eine große Anzahl von Funktionen. Wenn Sie einen Computer haben, der leistungsfähig genug ist, um eine Cholesky-Zerlegung der Kovarianzmatrix durchzuführen (n mal n, wobei n die Anzahl der Abtastwerte ist), benötigen Sie diese Methoden wahrscheinlich nicht.
Wenn Sie ein MATLAB-Benutzer sind, würde ich die GPML- Toolbox und das Buch von Rasmussen und Williams als gute Ausgangspunkte empfehlen .
Wenn Sie jedoch an der Auswahl von Funktionen interessiert sind, würde ich Hausärzte meiden. Der Standardansatz für die Merkmalsauswahl mit Hausärzten besteht darin, einen Kernel zur automatischen Relevanzbestimmung (z. B. covSEard in GPML) zu verwenden und dann die Merkmalsauswahl durch Optimieren der Kernelparameter zu erreichen, um die Grenzwahrscheinlichkeit zu maximieren. Leider ist es sehr wahrscheinlich, dass dies zu einer Überanpassung der Grenzwahrscheinlichkeit führt und zu einem Modell führt, das (möglicherweise viel) schlechter abschneidet als ein Modell mit einer einfachen Kovarianz der sphärischen radialen Basisfunktion (covSEiso in GPML).
Mein aktueller Forschungsschwerpunkt liegt derzeit auf der Überanpassung bei der Modellauswahl, und ich habe festgestellt, dass dies für die Evidenzmaximierung bei Hausärzten ebenso ein Problem darstellt wie für die auf Kreuzvalidierung basierende Optimierung von Hyperparanetern in Kernelmodellen siehe dieses Papier und dieses .
Die Auswahl von Funktionen für nichtlineare Modelle ist sehr schwierig. Oft erhalten Sie eine bessere Leistung, wenn Sie sich an ein lineares Modell halten und L1-Regularisierungstyp-Ansätze (Lasso / LARS / Elastic Net usw.) verwenden, um Sparsity- oder Random-Forest-Methoden zu erzielen.
quelle
quelle