Wie kann man ein Faltungsnetzwerk mit tiefem Glauben für die Audioklassifizierung verstehen?

11

In " Convolutional Deep Believe Networks für skalierbares unbeaufsichtigtes Lernen hierarchischer Repräsentationen " von Lee et. al. ( PDF ) Faltungs-DBNs werden vorgeschlagen. Auch das Verfahren wird zur Bildklassifizierung ausgewertet. Dies klingt logisch, da es natürliche lokale Bildmerkmale wie kleine Ecken und Kanten usw. gibt.

In " Unüberwachtes Feature-Lernen für die Audioklassifizierung unter Verwendung von Faltungs-Deep-Believe-Netzwerken " von Lee et. al. Diese Methode wird für Audio in verschiedenen Klassifizierungsarten angewendet. Sprecheridentifikation, Geschlechtsidentifikation, Telefonklassifizierung und auch einige Musikgenre- / Künstlerklassifizierungen.

Wie kann der Faltungsteil dieses Netzwerks für Audio interpretiert werden, wie es für Bilder als Kanten erklärt werden kann?

Peter Smit
quelle
Wer hat den Code für das Papier?

Antworten:

9

Die Audioanwendung ist eine eindimensionale Vereinfachung des zweidimensionalen Bildklassifizierungsproblems. Ein Phonem (zum Beispiel) ist das Audioanalog eines Bildmerkmals wie einer Kante oder eines Kreises. In beiden Fällen haben solche Merkmale eine wesentliche Lokalität: Sie sind durch Werte innerhalb einer relativ kleinen Nachbarschaft eines Bildorts oder eines Sprachmoments gekennzeichnet. Faltungen sind eine kontrollierte, regelmäßige Form der gewichteten Mittelung von Werten innerhalb lokaler Nachbarschaften. Daraus ergibt sich die Hoffnung, dass eine Faltungsform eines DBN erfolgreich sein kann, um sinnvolle Merkmale zu identifizieren und zu unterscheiden.

whuber
quelle
1

Im Fall von Faltungs-RBMs, die auf Audiodaten angewendet werden, haben die Autoren zuerst eine Kurzzeit-Fourier-Transformation durchgeführt und dann Energiebänder im Spektrum definiert. Dann haben sie Faltungs-RBMs auf dieses transformierte Audio angewendet.

user1915348
quelle