Gaußsche Prozessregression für hochdimensionale Datensätze

Ich wollte nur sehen, ob jemand Erfahrung mit der Anwendung der Gaußschen Prozessregression (GPR) auf hochdimensionale Datensätze hat. Ich untersuche einige der verschiedenen spärlichen GPR-Methoden (z. B. spärliche Pseudo-Eingänge GPR), um herauszufinden, was für hochdimensionale Datensätze funktionieren könnte, bei denen die Auswahl von Merkmalen idealerweise Teil des Parameterauswahlprozesses ist.

Vorschläge zu Papieren / Code / oder verschiedenen Methoden zum Ausprobieren sind auf jeden Fall willkommen.

Vielen Dank.

machine-learning predictive-models large-data gaussian-process tomas
quelle

Wie gesagt, diese Frage ist ziemlich vage. Fragen, die in sich geschlossen, konkret und gut motiviert sind, erhalten hier die meiste Aufmerksamkeit und die besten Antworten. (Wenn Sie beispielsweise ein bestimmtes Problem haben, das Sie lösen möchten, sollten Sie genügend Details bereitstellen, damit die Leser verstehen können, was Sie versuchen.)

Kardinal

Gaußsche Prozessmodelle eignen sich im Allgemeinen gut für hochdimensionale Datensätze (ich habe sie mit Microarray-Daten usw. verwendet). Der Schlüssel liegt in der Auswahl guter Werte für die Hyperparameter (die die Komplexität des Modells auf ähnliche Weise wie die Regularisierung effektiv steuern).

Sparse-Methoden und Pseudo-Eingabemethoden eignen sich eher für Datensätze mit einer großen Anzahl von Stichproben (> ca. 4000 für meinen Computer) als für eine große Anzahl von Funktionen. Wenn Sie einen Computer haben, der leistungsfähig genug ist, um eine Cholesky-Zerlegung der Kovarianzmatrix durchzuführen (n mal n, wobei n die Anzahl der Abtastwerte ist), benötigen Sie diese Methoden wahrscheinlich nicht.

Wenn Sie ein MATLAB-Benutzer sind, würde ich die GPML- Toolbox und das Buch von Rasmussen und Williams als gute Ausgangspunkte empfehlen .

Wenn Sie jedoch an der Auswahl von Funktionen interessiert sind, würde ich Hausärzte meiden. Der Standardansatz für die Merkmalsauswahl mit Hausärzten besteht darin, einen Kernel zur automatischen Relevanzbestimmung (z. B. covSEard in GPML) zu verwenden und dann die Merkmalsauswahl durch Optimieren der Kernelparameter zu erreichen, um die Grenzwahrscheinlichkeit zu maximieren. Leider ist es sehr wahrscheinlich, dass dies zu einer Überanpassung der Grenzwahrscheinlichkeit führt und zu einem Modell führt, das (möglicherweise viel) schlechter abschneidet als ein Modell mit einer einfachen Kovarianz der sphärischen radialen Basisfunktion (covSEiso in GPML).

Mein aktueller Forschungsschwerpunkt liegt derzeit auf der Überanpassung bei der Modellauswahl, und ich habe festgestellt, dass dies für die Evidenzmaximierung bei Hausärzten ebenso ein Problem darstellt wie für die auf Kreuzvalidierung basierende Optimierung von Hyperparanetern in Kernelmodellen siehe dieses Papier und dieses .

Die Auswahl von Funktionen für nichtlineare Modelle ist sehr schwierig. Oft erhalten Sie eine bessere Leistung, wenn Sie sich an ein lineares Modell halten und L1-Regularisierungstyp-Ansätze (Lasso / LARS / Elastic Net usw.) verwenden, um Sparsity- oder Random-Forest-Methoden zu erzielen.

Dikran Beuteltier
quelle

Danke Dikran. Ich habe versucht, glmnet in R nach regulierten linearen Modellen zu durchsuchen. Leider sind meine Vorhersagen alle gleich (ich denke, der Mittelwert meines Trainingssatzes). Lineare Modelle scheinen es schwer zu haben, das Signal in meinen Daten herauszuholen. Aus diesem Grund habe ich nach nichtlinearen Modellen gesucht, die mit vielen Features / potenziellen Feature-Interaktionen umgehen können. Ich bin mir ziemlich sicher, dass das viel verlangt. Irgendwelche Vorschläge dazu? Ich habe kein P >> N-Problem. Mit 150 Funktionen, 1000 Beispielen.

tomas

Hey Dikran. Das war eine ziemlich vage Frage, die ich in meinen Kommentaren gestellt habe. Ich habe eine spezifischere Frage an die Tafel gestellt. Danke nochmal für deine Hilfe. stats.stackexchange.com/questions/30411/…

tomas

Kein Problem, oft ist es schwieriger herauszufinden, was die Fragen sind, als sie zu beantworten! Ich werde nach den anderen Fragen Ausschau halten.

Dikran Marsupial

Danke für diese Antwort. Ist es bei hochdimensionalen Merkmalen, aber nicht so großen Datenmengen (n ~ 10k d ~ 1k) möglich, ARD zu verwenden, um die Berechnung zu beschleunigen? Ich verwende die GPML-Toolbox. Könnten wir die Kovarianzmatrix automatisch "sparsifizieren", um uns auf relevante Merkmale zu konzentrieren?

Emile

Der Link " r.csail.mit.edu/papers/v8/cawley07a.html " funktioniert nicht ... Ist es dieser? jmlr.org/papers/v8/cawley07a.html . Vielleicht wäre es von Vorteil, vollständige Zitate anstelle von nur Links hinzuzufügen :-)

Neugierig

Gaußsche Prozessregression für hochdimensionale Datensätze

Antworten: