Ich habe hier gelesen, dass es Funktionsfamilien gibt, die Knoten im neuronalen Netzwerk mit höchstens d - 1 Schichten benötigen, um die Funktion darzustellen, während sie nur O ( n ) benötigen, wenn das neuronale Netzwerk mindestens d Schichten hat. Es bezog sich auf ein Papier von Hastad. Ich habe es nicht gefunden. Könnte mir jemand den Titel der Zeitung sagen? Ich denke, das ist ein wirklich faszinierendes theoretisches Ergebnis.
cc.complexity-theory
reference-request
jakab922
quelle
quelle
Antworten:
Das Papier, das normalerweise zitiert wird, ist Fast Optimal Lower Bounds for Small Depth Circuits , das in STOC 1986 erscheint. Das Hauptergebnis Ihrer Frage ist:
Noch relevanter ist die Tatsache, dass eine exponentielle Trennung zwischen Tiefe 3 und Tiefe 2 zulässtTC0 . Dies ist relevant, da Schwellenwertgatter häufig in tiefen Netzwerken verwendet werden.
quelle
Wörtlich ausgedrückt ist das Problem der exponentiellen Trennung neuronaler Netze der Tiefe d von der Tiefe d-1 für alle d nach meinem besten Wissen offen. Wenn Ihre "Aktivierungsfunktionen" beispielsweise lineare Schwellenwertfunktionen sind, ist offen, ob alle Netze aller Tiefen d mit einer polynomiellen Vergrößerung in Tiefe 3 simuliert werden können.
quelle
Perzeptrone werden oft als Modell für neuronale Netze bezeichnet. Die Autoren waren Schüler von Johan Håstad, daher könnte dies die Referenz sein, nach der Sie suchen.
quelle