Warum scheinen neuronale Netze mit Einschränkungen ihrer Topologie eine bessere Leistung zu erbringen?

29

Backprop-Netzwerke, die vollständig miteinander verbunden sind (mindestens Schicht für Schicht mit mehr als 2 verborgenen Schichten), sind universelle Lerner. Leider lernen sie oft nur langsam und neigen zu Überanpassung oder zu unangenehmen Verallgemeinerungen.

Beim Herumalbern mit diesen Netzwerken habe ich beobachtet, dass das Beschneiden einiger Kanten (so dass deren Gewicht Null ist und sich nicht ändern lässt) dazu führt, dass die Netzwerke schneller lernen und sich besser verallgemeinern. Gibt es einen Grund dafür? Liegt es nur an einer Verringerung der Dimensionalität des Suchraums für Gewichte, oder gibt es einen subtileren Grund?

Ist die bessere Verallgemeinerung auch ein Artefakt der "natürlichen" Probleme, mit denen ich mich befasse?

Artem Kaznatcheev
quelle

Antworten:

9

Weniger Knoten / Kanten (oder Kanten mit fester Gewichtung) bedeuten, dass weniger Parameter gefunden werden müssen. Dies verkürzt in der Regel die Lernzeit. Wenn es weniger Parameter gibt, hat der Raum , der durch das neuronale Netzwerk ausgedrückt werden kann, auch weniger Dimensionen, so dass das neuronale Netzwerk nur allgemeinere Modelle ausdrücken kann. Es ist daher weniger in der Lage, die Daten zu überdecken, und daher scheinen die Modelle allgemeiner zu sein.

Dave Clarke
quelle
5

Durch das Beschneiden von Kanten haben Sie den Suchraum für den Trainingsalgorithmus reduziert, was sich sofort in der Zeitleistung niederschlägt. Sie haben auch Einschränkungen für die Funktionen eingeführt, die das Netzwerk modellieren kann. Die Einschränkungen können Ihr Modell dazu zwingen, eine allgemeinere Lösung zu finden, da die genauere nicht erreichbar ist. Eine übliche Technik zum Trainieren neuronaler Netze ist die Verwendung einer Gradientenabstiegstechnik. Eine weitere Folge des Bereinigens kann sein, dass Sie einige lokale Minima in der Parameterlandschaft eliminiert haben, die es dem Trainingsalgorithmus wiederum ermöglichen, eine bessere Lösung zu finden.

Es würde mich nicht wundern, wenn Ihre bessere Verallgemeinerung mit den Problemen zusammenhängt, die Sie betrachten. Ich habe Erfolg mit neuronalen Netzen gehabt, bei denen das zugrunde liegende Modell eine kontinuierliche Struktur aufweist, während Fälle, bei denen es Diskontinuitäten gibt, nicht so gut funktionierten. Denken Sie auch daran, dass die Leistung des neuronalen Netzwerks häufig eng mit der Struktur Ihrer Eingabe und Ausgabe zusammenhängt.

John Percival Hackworth
quelle