Exponentielle Lücke auf neuronalen Netzwerkschichten

Ich habe hier gelesen, dass es Funktionsfamilien gibt, die Knoten im neuronalen Netzwerk mit höchstens Schichten benötigen, um die Funktion darzustellen, während sie nur benötigen, wenn das neuronale Netzwerk mindestens Schichten hat. Es bezog sich auf ein Papier von Hastad. Ich habe es nicht gefunden. Könnte mir jemand den Titel der Zeitung sagen? Ich denke, das ist ein wirklich faszinierendes theoretisches Ergebnis. $\mathcal{O}(2^n)$ $d - 1$ $\mathcal{O}(n)$ $d$

cc.complexity-theory reference-request jakab922
quelle

der Schiedsrichter den Sie zitieren Staaten es für Logik - Gattern, formal Neuronen erwiesen und RBFs wurde, und scheint unter Angabe Hastad dieses Ergebnis für bewiesen RBFs (radiale Basis FNS „ den letzteren Fall“).

vzn

Hier könnte es zu Handbewegungen kommen. Die Komplexität von NNs scheint mindestens so schwierig zu sein wie die Komplexität von Schaltkreisen (hat dies jedoch nicht bewiesen), die immer noch voller offener Probleme ist. an anderer Stelle ist diese Frage, die durch eine verwandte Übereinstimmung aufgeworfen wurde, relevant, Rechenleistung von neuronalen Netzen tcs.se (ps, großartig, um hier einige Fragen zum Deep-Learning und dem Feld zu sehen, das zumindest vorläufig mit TCS verknüpft ist)

vzn

Antworten:

Das Papier, das normalerweise zitiert wird, ist Fast Optimal Lower Bounds for Small Depth Circuits , das in STOC 1986 erscheint. Das Hauptergebnis Ihrer Frage ist:

Es gibt eine Familie von Funktionen, die Schaltungen mit linearer Größe und Tiefe (mit unbegrenztem Fan-In UND / ODER und NICHT) zulassen, die eine exponentielle Größe in der Tiefe erfordern . $k$ $k-1$

Noch relevanter ist die Tatsache, dass eine exponentielle Trennung zwischen Tiefe 3 und Tiefe 2 zulässt $\mathsf{TC}^0$ . Dies ist relevant, da Schwellenwertgatter häufig in tiefen Netzwerken verwendet werden.

Suresh Venkat
quelle

Es mag sein, dass dies in der neuronalen Netzforschung von einigen zitiert wird und die grundlegende Analogie sieht, aber es hat einen sehr tatsächlichen / direkten Bezug zu neuronalen Netzen. Um dies auszufüllen, wäre eine Referenz, die diese Ergebnisse formal im Rahmen neuronaler Netze verwendet, wertvoll, wenn eine solche Referenz überhaupt existiert.

vzn

Es wird normalerweise als Intuition dafür angeführt, warum Tiefe wichtig ist. Ich denke, das ist eine legitime Verwendung. Es ist jedoch nicht das einzige Beispiel dafür, dass eine größere Tiefe stärker ist.

Suresh Venkat

@SureshVenkat Gibt es eine modernere Überprüfung / Darstellung des obigen Ergebnisses von Hastad? (Ich kann neue Schriften der PARITÄT nicht im AC ^ 0-Beweis sehen, aber nicht von diesem besonderen anderen Ergebnis in der Arbeit)

gradstudent

Wörtlich ausgedrückt ist das Problem der exponentiellen Trennung neuronaler Netze der Tiefe d von der Tiefe d-1 für alle d nach meinem besten Wissen offen. Wenn Ihre "Aktivierungsfunktionen" beispielsweise lineare Schwellenwertfunktionen sind, ist offen, ob alle Netze aller Tiefen d mit einer polynomiellen Vergrößerung in Tiefe 3 simuliert werden können.

Ryan Williams
quelle

Haben Sie ein allgemeineres Modell neuronaler Netze im Sinn als

oder die in den beiden anderen Antworten genannten Perzeptrone?

{T C}^{0}

$\mathsf{TC}^0$

András Salamon

Nun, ich spreche von Schaltkreisen, die aus linearen Schwellenfunktionen konstanter Tiefe bestehen. Das ist nicht allgemeiner als

mit konstanter Tiefe, Sie benötigen jedoch eine größere konstante Tiefe, um lineare Schwellenwertfunktionen mit

zu simulieren . Siehe Goldmann, Hastad, Razborov citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.1336

T C^{0}

$TC^0$

T C^{0}

$TC^0$

Ryan Williams

Ich bin etwas verwirrt über die Referenzen, die hier gegeben wurden. Wie sind diese neuronalen Netze überhaupt, wenn diese Boolesche Funktionen berechnen? Suchen wir nicht nach Trennungsergebnissen für

Neuronale Netze mit ReLU-Aktivierung?

R^{n} \to R

$\mathbb{R}^n \rightarrow \mathbb{R}$

Gradstudent

Lesen Sie den in der Frage verlinkten Inhalt, es wird nichts über die Beschränkung auf Funktionen dieser Form erwähnt, noch sind die Aktivierungsfunktionen auf ReLU beschränkt.

Ryan Williams

R^{n} \to R

$\mathbb{R}^n \rightarrow \mathbb{R}$

$d$ $d+1$

$\mathsf{PP}^{\mathsf{PH}}$

Perzeptrone werden oft als Modell für neuronale Netze bezeichnet. Die Autoren waren Schüler von Johan Håstad, daher könnte dies die Referenz sein, nach der Sie suchen.

Jan Johannsen
quelle