Ich arbeite derzeit daran, die Ergebnisse dieses Papiers neu zu erstellen . In der Arbeit beschreiben sie eine Methode zur Verwendung von CNN zur Merkmalsextraktion und haben ein akustisches Modell, das Dnn-hmm ist und mit RBM vorab trainiert wurde.
Abschnitt III Unterabschnitt A gibt verschiedene Möglichkeiten an, wie die Eingabedaten dargestellt werden können. Ich beschloss, die Spektraldiagramme der statischen, Delta und Delta Deltas vertikal zu stapeln.
Das Papier beschreibt dann, wie das Netzwerk sein sollte. Sie geben an, dass sie ein Faltungsnetzwerk verwenden, aber nichts über die Struktur des Netzwerks?. Wird das Netzwerk immer als Faltungslage bezeichnet? Ich bin mir sicher, dass ich einen Unterschied zu einem gewöhnlichen Faltungsnetzwerk (CNN) sehe.
Das Papier stellt dies in Bezug auf den Unterschied fest:
(aus Abschnitt III Unterabschnitt B)
Eine Faltungslage unterscheidet sich jedoch in zwei wichtigen Aspekten von einer normalen, vollständig verbundenen verborgenen Schicht. Erstens empfängt jede Faltungseinheit nur Eingaben von einem lokalen Bereich der Eingabe. Dies bedeutet, dass jede Einheit einige Merkmale eines lokalen Bereichs der Eingabe darstellt. Zweitens können die Einheiten der Faltungslage selbst in einer Anzahl von Merkmalskarten organisiert werden, wobei alle Einheiten in derselben Merkmalskarte die gleichen Gewichte haben, aber Eingaben von verschiedenen Stellen der unteren Schicht erhalten
Eine andere Sache, die ich mich gefragt habe, ist, ob das Papier tatsächlich angibt, wie viele Ausgabeparameter benötigt werden, um das dnn-hmm-Akustikmodell zu speisen. Ich kann die Anzahl der Filter und Filtergrößen nicht dekodieren. In allgemeinen Details des Netzwerks?
quelle
Antworten:
Es scheint, dass eine Faltungslage genau das gleiche ist wie eine gewöhnliche Faltungsschicht. Aus ihrer Arbeit geht hervor, dass sich der Begriff "CNN-Schicht" normalerweise auf eine Faltungsschicht bezieht, gefolgt von einer Pooling-Schicht. Um die Verwirrung zu verringern, nennen sie den Faltungsteil eine "Faltungslage" und den Poolteil eine "Poollage":
Ironischerweise hat dies die Verwirrung erhöht und zu diesem Beitrag geführt. Zu der Zeit war es vermutlich nicht üblich, mehrere Faltungsschichten hintereinander vor einer Poolschicht zu haben, aber wir sehen dies häufig in modernen Architekturen.
Um Ihre andere Frage zur Netzwerkstruktur zu beantworten; Sie geben die Struktur des Netzwerks an, das sie im Abschnitt Experimente (Abschnitt VB) verwenden. Um die Verwirrung hoffentlich zu verringern, habe ich das Wort "Lage" durch "Schicht" ersetzt:
quelle