Sind MFCCs die optimale Methode zur Darstellung von Musik in einem Abrufsystem?

10

Eine Signalverarbeitungstechnik, die Mel-Frequenz Cepstrum , wird häufig verwendet, um Informationen aus einem Musikstück zur Verwendung in einer maschinellen Lernaufgabe zu extrahieren. Diese Methode liefert ein kurzfristiges Leistungsspektrum, und die Koeffizienten werden als Eingabe verwendet.

Beim Entwerfen von Musikabrufsystemen werden solche Koeffizienten als charakteristisch für ein Stück angesehen (offensichtlich nicht unbedingt eindeutig, aber unterscheidend). Gibt es Eigenschaften, die besser zum Lernen mit einem Netzwerk passen? Würden zeitlich veränderliche Eigenschaften wie die Bassprogression des Stücks, das in einem Elman-Netzwerk verwendet wird, effektiver funktionieren?

Welche Merkmale würden einen ausreichend umfangreichen Satz bilden, auf dessen Grundlage eine Klassifizierung stattfinden könnte?

jonsca
quelle
Arbeiten Sie am Abrufen, wo Sie nach einzigartigen Eigenschaften eines bestimmten Audioclips suchen? oder möchtest du ähnliche musik identifizieren?
Andrew Rosenberg
@ AndrewRosenberg Mehr im Sinne der Identifizierung ähnlicher Musik.
Jonsca
(Jahre später) gibt es viele Möglichkeiten, an MFCC zu basteln. Kinunnen et al., Frequency Warping und Robust Speaker Verifications: Ein Vergleich alternativer Mel-Scale-Darstellungen 2013, 5p, verwenden 60 Koeffizienten. Und was optimieren? Auf welcher nicht geöffneten Datenbank? Ich würde also sagen (kein Experte), dass die Frage zu weit gefasst ist, um beantwortet zu werden.
Denis
@denis Danke für die Information. Dies kam von der unglückseligen Beta für maschinelles Lernen (das erste Mal). Ich schätze, dass es ein bisschen vage ist.
Jonsca

Antworten:

8

Wir haben an einem Punkt ein bisschen daran gearbeitet. Die von uns extrahierten Funktionen sind in diesem NIPS-Workshoppapier aufgeführt . Ich muss zugeben, dass wir die Ergebnisse einiger anderer Autoren auf diesem Gebiet nicht replizieren konnten, obwohl einige Zweifel an den in diesen Feldern verwendeten Datensätzen bestanden (beachten Sie, dass die von Autoren auf diesem Gebiet verwendeten Datensätze in der Regel von Hand ausgewählt und nicht veröffentlicht werden aus urheberrechtlichen Gründen für die Öffentlichkeit, obwohl dies nicht immer der Fall ist). Im Wesentlichen waren sie alle kurzfristige spektrale Merkmalemit eingeworfenen Autoregression-Koeffizienten. Wir haben uns mit der Klassifizierung von Genres befasst, von denen wir wissen, dass sie von Menschen (wenn auch nicht mit wunderbarer Genauigkeit und nicht mit konsistenter Übereinstimmung ...) in sehr kurzen Zeiträumen (<1s) durchgeführt werden können, was die Verwendung kurzfristiger Merkmale bestätigt . Wenn Sie daran interessiert sind, kompliziertere Dinge als die typische Klassifizierung von Genre / Künstler / Album / Produzent zu tun, benötigen Sie möglicherweise mehr Funktionen mit großer Reichweite, andernfalls sind diese kurzfristigen Spektralfunktionen in der Regel am besten geeignet.

tdc
quelle
Was war der Zweck, die AR-Koeffizienten einzugeben?
Jonsca
1
@jonsca Da wir Boosting-Methoden verwendeten, bei denen viele "schwache" Lernende kombiniert wurden, entschieden wir uns, alle leicht zu berechnenden Funktionen zu verwenden, die einen gewissen Nutzen bringen könnten. Alles, was ein schwacher Lernender benötigt, um nützlich zu sein, ist, dass er auf einer höheren als der Zufallsstufe klassifizieren kann. Die AR-Koeffizienten entsprechen einer Komprimierung der Spektralhüllkurve, die einen Eindruck von der kurzfristigen Informationskomplexität der Musik in diesem Fenster vermittelt, wenn auch nur sehr locker.
tdc
@tdc, "Datensätze werden in der Regel nicht veröffentlicht ...": Kennen Sie kostenlose Online-Sprachdatensätze mit Phonemen?
Denis
@denis der einzige, den ich kenne, ist dieser: orange.biolab.si/datasets/phoneme.htm
tdc
@tdc, danke, aber das sind nur 11 Vokale aus Elements of Stat Learning, ~ 1000 x 11 Features (alte LPC).
Denis