Eine Signalverarbeitungstechnik, die Mel-Frequenz Cepstrum , wird häufig verwendet, um Informationen aus einem Musikstück zur Verwendung in einer maschinellen Lernaufgabe zu extrahieren. Diese Methode liefert ein kurzfristiges Leistungsspektrum, und die Koeffizienten werden als Eingabe verwendet.
Beim Entwerfen von Musikabrufsystemen werden solche Koeffizienten als charakteristisch für ein Stück angesehen (offensichtlich nicht unbedingt eindeutig, aber unterscheidend). Gibt es Eigenschaften, die besser zum Lernen mit einem Netzwerk passen? Würden zeitlich veränderliche Eigenschaften wie die Bassprogression des Stücks, das in einem Elman-Netzwerk verwendet wird, effektiver funktionieren?
Welche Merkmale würden einen ausreichend umfangreichen Satz bilden, auf dessen Grundlage eine Klassifizierung stattfinden könnte?
Antworten:
Wir haben an einem Punkt ein bisschen daran gearbeitet. Die von uns extrahierten Funktionen sind in diesem NIPS-Workshoppapier aufgeführt . Ich muss zugeben, dass wir die Ergebnisse einiger anderer Autoren auf diesem Gebiet nicht replizieren konnten, obwohl einige Zweifel an den in diesen Feldern verwendeten Datensätzen bestanden (beachten Sie, dass die von Autoren auf diesem Gebiet verwendeten Datensätze in der Regel von Hand ausgewählt und nicht veröffentlicht werden aus urheberrechtlichen Gründen für die Öffentlichkeit, obwohl dies nicht immer der Fall ist). Im Wesentlichen waren sie alle kurzfristige spektrale Merkmalemit eingeworfenen Autoregression-Koeffizienten. Wir haben uns mit der Klassifizierung von Genres befasst, von denen wir wissen, dass sie von Menschen (wenn auch nicht mit wunderbarer Genauigkeit und nicht mit konsistenter Übereinstimmung ...) in sehr kurzen Zeiträumen (<1s) durchgeführt werden können, was die Verwendung kurzfristiger Merkmale bestätigt . Wenn Sie daran interessiert sind, kompliziertere Dinge als die typische Klassifizierung von Genre / Künstler / Album / Produzent zu tun, benötigen Sie möglicherweise mehr Funktionen mit großer Reichweite, andernfalls sind diese kurzfristigen Spektralfunktionen in der Regel am besten geeignet.
quelle