Ja, dies ist möglich, indem das Audio als Sequenz in einem wiederkehrenden neuronalen Netzwerk (RNN) behandelt wird . Sie können eine RNN gegen ein Ziel trainieren, das am Ende einer Sequenz korrekt ist, oder sogar einen anderen Sequenzversatz von der Eingabe vorhersagen.
Beachten Sie jedoch, dass Sie ein wenig über Optionen für den Aufbau und die Schulung eines RNN lernen müssen , die Sie bei der Betrachtung einfacher geschichteter Feed-Forward-Netzwerke noch nicht studiert haben. Moderne RNNs verwenden Schichtdesigns, die Speichergatter enthalten. Die beiden beliebtesten Architekturen sind LSTM und GRU. Diese fügen jeder Schicht mehr trainierbare Parameter hinzu, da die Speichergatter zusätzlich zu den Gewichten zwischen und innerhalb der Schicht Gewichte lernen müssen.
RNNs werden häufig verwendet, um aus Audiosequenzen, die bereits in MFCC oder ähnlichen Funktionssätzen verarbeitet wurden, Vorhersagen zu treffen, da sie sequenzierte Daten als Eingabe und / oder Ausgabe verarbeiten können. Dies ist eine wünschenswerte Funktion, wenn Daten mit variabler Länge wie gesprochenes Wort verarbeitet werden , Musik etc.
Einige andere bemerkenswerte Dinge:
RNNs kann auch für arbeitet Sequenzen von Daten , die mit variabler Länge sind, und wo es eine gut definierte Dimension , über die die Sequenzen zu entwickeln. Sie sind jedoch weniger gut für Feature-Sets mit variabler Größe geeignet, bei denen es keine klare Reihenfolge oder Reihenfolge gibt.
RNNs können hochmoderne Ergebnisse für Signalverarbeitung, NLP und verwandte Aufgaben erhalten, jedoch nur, wenn eine sehr große Menge an Trainingsdaten vorhanden ist. Andere, einfachere Modelle können genauso gut oder besser funktionieren, wenn weniger Daten vorhanden sind.
Für das spezielle Problem der Erzeugung von MFCCs aus Roh-Audio-Samples: Während es möglich sein sollte, eine RNN zu erstellen, die MFCC-Funktionen aus Roh-Audio vorhersagt, kann dies einige Anstrengungen und Experimente erfordern, um richtig zu werden, und es kann viel Rechenleistung erfordern, um sie zu erstellen Ein RNN, das leistungsfähig genug ist, um sehr lange Sequenzen bei normalen Audio-Abtastraten zu bewältigen. Das Erstellen von MFCC aus Roh-Audio mit dem Standardansatz, beginnend mit FFT, ist viel einfacher und garantiert genau.