Warum verwenden Menschen keine tieferen RBFs oder RBFs in Kombination mit MLP?

12

Bei der Betrachtung der Neuronalen Netze mit radialer Basisfunktion ist mir aufgefallen, dass immer nur die Verwendung einer verborgenen Schicht empfohlen wird, während bei neuronalen Netzen mit mehrschichtigen Perzeptronen mehr Schichten als besser angesehen werden.

Angesichts der Tatsache, dass RBF-Netzwerke mit der Version der Rückübertragung trainiert werden können, gibt es Gründe, warum tiefere RBF-Netzwerke nicht funktionieren oder dass eine RBF-Schicht nicht als vorletzte oder erste Schicht in einem tiefen MLP-Netzwerk verwendet werden kann? (Ich dachte, die vorletzte Ebene könnte im Wesentlichen auf die von den vorherigen MLP-Ebenen erlernten Funktionen trainiert werden.)

user1646196
quelle
Ich bin kein NN-Experte, aber ich habe den Eindruck, dass bei Standard-Feed-Forward-NNs mehrere ausgeblendete Ebenen normalerweise nicht viel bewirken.
gung - Wiedereinsetzung von Monica
1
Das war in den früheren Tagen der NN-Forschung, aber jetzt sind mehr Schichten in der Regel das Rezept für mehr Leistung (Deep Learning). Ich denke, der derzeitige Lieblingsansatz ist eine intelligente Initialisierung, möglichst viele Ebenen, Regularisierung über Dropout und Softmax anstelle von Sigmoid-Aktivierungen, um eine Sättigung zu vermeiden. (Aber ich kann mich in den Techniken irren). Ich denke, einige Leute verwenden auch die iterative Vertiefung, um bessere Ergebnisse zu erzielen. Darüber hinaus hat Google 2014 mit einem 100-Layer-Netzwerk den neuesten Stand der Technik auf imageNet erreicht.
user1646196

Antworten:

4

Das grundlegende Problem ist, dass RBFs a) zu nichtlinear sind, b) keine Dimensionsreduktion durchführen.

wegen a) RBFs wurden immer mit k-Mitteln trainiert und nicht mit Gefälle.

Ich würde behaupten, dass der Haupterfolg bei Deep NNs Convnets sind, bei denen einer der Schlüsselteile die Dimensionsreduktion ist: Obwohl jedes Neuron mit 128 x 128 x 3 = 50.000 Eingaben arbeitet, hat es ein eingeschränktes Empfangsfeld und es gibt viel weniger Neuronen in jeder Schicht In einer bestimmten Schicht in einem MLP (jedes Neuron stellt ein Merkmal / eine Dimension dar), sodass Sie die Dimensionalität ständig reduzieren (von Schicht zu Schicht).

Obwohl man die RBF-Kovarianzmatrix adaptiv gestalten und die Dimension reduzieren könnte, wird das Training dadurch noch schwieriger.

seanv507
quelle
Ich habe kürzlich einen Artikel gelesen, der einen Backpropagation-Algorithmus für das Training von RBF-Netzwerken vorschlug. Könnte dies von Vorteil sein, wenn ein RBF die letzte Schicht in einem tiefen Netzwerk darstellt? Ich nehme an, in dieser Form würde der Rest des tiefen Netzwerks im Wesentlichen Merkmale erkennen, die der RBF klassifizieren kann
user1646196
Vielleicht solltest du einen Link zum Artikel erstellen und dann können die Leute fundiertere Antworten geben. Ich sehe keinen Vorteil ... da der RBF zu nicht linear ist (und z. B. Sigmoide durch relu ersetzt wurden, weil sie zu nicht linear verschwanden ...). Was Menschen tun , ist Zug mit konv Netz mit Standard mlp oben, dann wegzuwerfen mlp und Verwendung SVM
seanv507
Das Papier "Training RBF-Netzwerke mit selektiver Backpropagation" ist nicht sicher, ob Sie es hier lesen können oder ob es eine Paywall gibt. Sciencedirect.com/science/article/pii/S0925231203005411 . Ich wusste nicht, dass Sigmoide aufgrund von Nichtlinearität durch Relu ersetzt wurden, aber angesichts dessen, dass ich sehen kann, wie eine erhöhte Nichtlinearität vermieden werden würde. Ich werde die Antwort als angenommen markieren :)
user1646196