Wie unterscheidet sich eine Faltungslage von einem gewöhnlichen Faltungsnetzwerk?

Ich arbeite derzeit daran, die Ergebnisse dieses Papiers neu zu erstellen . In der Arbeit beschreiben sie eine Methode zur Verwendung von CNN zur Merkmalsextraktion und haben ein akustisches Modell, das Dnn-hmm ist und mit RBM vorab trainiert wurde.

Abschnitt III Unterabschnitt A gibt verschiedene Möglichkeiten an, wie die Eingabedaten dargestellt werden können. Ich beschloss, die Spektraldiagramme der statischen, Delta und Delta Deltas vertikal zu stapeln.

Also als solches:

Das Papier beschreibt dann, wie das Netzwerk sein sollte. Sie geben an, dass sie ein Faltungsnetzwerk verwenden, aber nichts über die Struktur des Netzwerks?. Wird das Netzwerk immer als Faltungslage bezeichnet? Ich bin mir sicher, dass ich einen Unterschied zu einem gewöhnlichen Faltungsnetzwerk (CNN) sehe.

Das Papier stellt dies in Bezug auf den Unterschied fest:

(aus Abschnitt III Unterabschnitt B)

Eine Faltungslage unterscheidet sich jedoch in zwei wichtigen Aspekten von einer normalen, vollständig verbundenen verborgenen Schicht. Erstens empfängt jede Faltungseinheit nur Eingaben von einem lokalen Bereich der Eingabe. Dies bedeutet, dass jede Einheit einige Merkmale eines lokalen Bereichs der Eingabe darstellt. Zweitens können die Einheiten der Faltungslage selbst in einer Anzahl von Merkmalskarten organisiert werden, wobei alle Einheiten in derselben Merkmalskarte die gleichen Gewichte haben, aber Eingaben von verschiedenen Stellen der unteren Schicht erhalten

Eine andere Sache, die ich mich gefragt habe, ist, ob das Papier tatsächlich angibt, wie viele Ausgabeparameter benötigt werden, um das dnn-hmm-Akustikmodell zu speisen. Ich kann die Anzahl der Filter und Filtergrößen nicht dekodieren. In allgemeinen Details des Netzwerks?

neural-network convnet feature-extraction audio-recognition Carlton Banks
quelle

Das interessiert mich auch. Ich schätze, ich kann ein Kopfgeld starten, um den Prozess zu beschleunigen.

Lamda

Antworten:

Es scheint, dass eine Faltungslage genau das gleiche ist wie eine gewöhnliche Faltungsschicht. Aus ihrer Arbeit geht hervor, dass sich der Begriff "CNN-Schicht" normalerweise auf eine Faltungsschicht bezieht, gefolgt von einer Pooling-Schicht. Um die Verwirrung zu verringern, nennen sie den Faltungsteil eine "Faltungslage" und den Poolteil eine "Poollage":

In der CNN-Terminologie wird ein Paar von Faltungs- und Pooling-Schichten in Fig. 2 nacheinander gewöhnlich als eine CNN- "Schicht" bezeichnet. Ein tiefes CNN besteht somit aus zwei oder mehr dieser Paare nacheinander. Um Verwirrung zu vermeiden, werden wir Faltungs- und Pooling-Schichten als Faltungs- bzw. Pooling-Lagen bezeichnen.

Ironischerweise hat dies die Verwirrung erhöht und zu diesem Beitrag geführt. Zu der Zeit war es vermutlich nicht üblich, mehrere Faltungsschichten hintereinander vor einer Poolschicht zu haben, aber wir sehen dies häufig in modernen Architekturen.

Um Ihre andere Frage zur Netzwerkstruktur zu beantworten; Sie geben die Struktur des Netzwerks an, das sie im Abschnitt Experimente (Abschnitt VB) verwenden. Um die Verwirrung hoffentlich zu verringern, habe ich das Wort "Lage" durch "Schicht" ersetzt:

In diesen Experimenten verwendeten wir eine Faltung [Schicht], eine Pooling [Schicht] und zwei vollständig verbundene verborgene Schichten auf der Oberseite. Die vollständig verbundenen Schichten hatten jeweils 1000 Einheiten. Die Faltungs- und Pooling-Parameter waren: Pooling-Größe von 6, Verschiebungsgröße von 2, Filtergröße von 8, 150 Feature-Maps für FWS und 80 Feature-Maps pro Frequenzband für LWS.

Timleathart
quelle