Bayesianische nichtparametrische Antwort auf tiefes Lernen?

8

So wie ich es verstehe, führen tiefe neuronale Netze "Repräsentationslernen" durch, indem sie Merkmale zusammenfügen. Dies ermöglicht das Lernen sehr hochdimensionaler Strukturen in den Merkmalen. Natürlich handelt es sich um ein parametrisches Modell mit einer festen Anzahl von Parametern, daher besteht die übliche Einschränkung, dass die Komplexität des Modells möglicherweise nur schwer einstellbar ist.

Gibt es eine Bayes'sche (nichtparametrische) Möglichkeit, solche Strukturen im Merkmalsraum zu lernen, damit sich die Komplexität des Modells an die Daten anpassen kann? Verwandte Modelle umfassen:

  • Dirichlet verarbeitet Mischungsmodelle, mit denen der Raum in unbegrenzte Cluster aufgeteilt werden kann, sodass die Daten eine endliche Zahl auswählen können
  • Fakultätsmodelle wie der Indian Buffet Process (IBP), die möglicherweise unendlich viele latente Merkmale (auch als Themen bezeichnet) finden, die die Daten erklären.

Es scheint jedoch, dass der IBP keine tiefen Darstellungen lernt. Es gibt auch das Problem, dass diese Methoden für unbeaufsichtigtes Lernen konzipiert sind und wir normalerweise Deep Learning für überwachte Aufgaben verwenden. Gibt es eine Variante des IBP oder andere Methoden, mit denen Repräsentationen wachsen können, wenn die Daten dies erfordern?

grün
quelle
Ich weiß nicht wirklich, ob tiefe neuronale Netze als parametrisches Modell gelten.
Skander H.

Antworten:

6

Wie die andere Antwort feststellt, ist der Gaußsche Prozess eine übliche nichtparametrische Bayes'sche Alternative zu neuronalen Netzen . (Siehe auch hier ).

Die Verbindung geht jedoch viel tiefer. Betrachten Sie die Klasse der Modelle, die als Bayesian Neural Networks (BNN) bekannt sind. Solche Modelle ähneln regulären tiefen neuronalen Netzen, außer dass jedes Gewicht / jeder Parameter im Netzwerk eine Wahrscheinlichkeitsverteilung aufweist, die seinen Wert beschreibt . Ein normales neuronales Netzwerk ähnelt dann einem Sonderfall eines BNN, mit der Ausnahme, dass die Wahrscheinlichkeitsverteilung für jedes Gewicht ein Dirac-Delta ist.

Eine interessante Tatsache ist, dass unendlich breite Bayes'sche neuronale Netze unter vernünftigen Bedingungen zu Gauß'schen Prozessen werden.

Neals These Bayesian Learning for Neural Networks (1995) zeigt dies im Fall eines einschichtigen Netzwerks mit einem IID-Prior. Neuere Arbeiten (siehe Lee et al., Deep Neural Networks als Gaußsche Prozesse , 2018 ) erweitern dies auf tiefere Netzwerke.

Vielleicht können Sie große BNNs als Annäherungen an ein nicht parametrisches Gaußsches Prozessmodell betrachten.

Was Ihre Frage im Allgemeinen betrifft, benötigen Menschen häufig nur Abbildungen beim überwachten Lernen, was anscheinend (zumindest vorerst) nicht so häufig für Bayes'sche Nicht-Parametrik ist, hauptsächlich aus rechnerischen Gründen (dies gilt auch für BNNs, selbst mit den jüngsten Fortschritten in Variationsinferenz). Beim unbeaufsichtigten Lernen treten sie jedoch häufiger auf. Zum Beispiel:

user3658307
quelle