Die Fourier-Transformation wird üblicherweise zur Frequenzanalyse von Klängen verwendet. Es hat jedoch einige Nachteile, wenn es darum geht, die menschliche Wahrnehmung von Schall zu analysieren. Beispielsweise sind seine Frequenzbereiche linear, während das menschliche Ohr logarithmisch und nicht linear auf die Frequenz reagiert .
Wavelet-Transformationen können im Gegensatz zur Fourier-Transformation die Auflösung für verschiedene Frequenzbereiche ändern . Die Eigenschaften der Wavelet-Transformation ermöglichen große zeitliche Abstützungen für niedrigere Frequenzen, während kurze zeitliche Breiten für höhere Frequenzen beibehalten werden.
Das Morlet-Wavelet ist eng mit der menschlichen Hörwahrnehmung verwandt. Es kann auf die Transkription von Musik angewendet werden und liefert sehr genaue Ergebnisse, die mit Fourier-Transformationstechniken nicht möglich sind. Es ist in der Lage, kurze Serien von sich wiederholenden und abwechselnden Musiknoten mit einer eindeutigen Start- und Endzeit für jede Note zu erfassen.
Die Konstant-Q-Transformation (eng verwandt mit der Morlet-Wavelet-Transformation) eignet sich auch gut für Musikdaten . Da der Ausgang der Transformation effektiv Amplitude / Phase gegen die logarithmische Frequenz ist, sind weniger Spektralbereiche erforderlich, um einen bestimmten Bereich effektiv abzudecken, und dies erweist sich als nützlich, wenn die Frequenzen mehrere Oktaven umfassen.
Die Transformation zeigt eine Verringerung der Frequenzauflösung bei höheren Frequenzbereichen, was für Höranwendungen wünschenswert ist. Es spiegelt das menschliche Gehör wider, wobei bei niedrigeren Frequenzen die spektrale Auflösung besser ist, während sich die zeitliche Auflösung bei höheren Frequenzen verbessert.
Meine Frage lautet: Gibt es andere Transformationen, die das menschliche Hörsystem genau nachahmen? Hat jemand versucht, eine Transformation zu entwerfen, die anatomisch / neurologisch so gut wie möglich zum menschlichen Gehör passt?
Beispielsweise ist bekannt, dass menschliche Ohren logarithmisch auf die Schallintensität reagieren . Es ist auch bekannt, dass Konturen gleicher Lautstärke nicht nur mit der Intensität, sondern auch mit dem Frequenzabstand der Spektralkomponenten variieren . Geräusche, die Spektralkomponenten in vielen kritischen Bändern enthalten, werden auch dann als lauter empfunden, wenn der Gesamtschalldruck konstant bleibt.
Schließlich hat das menschliche Ohr eine frequenzabhängig begrenzte zeitliche Auflösung . Vielleicht könnte dies auch berücksichtigt werden.
Antworten:
Bei der Gestaltung solcher Transformationen sollten konkurrierende Interessen berücksichtigt werden:
In letzter Zeit sind mir zwei Designs aufgefallen: Auditory-motivated Gammatone Wavelet Transform , Signal Processing, 2014
Die ERBlet-Transformation: Eine auditorische Zeit-Frequenz-Darstellung mit perfekter Rekonstruktion , ICASSP 2013
Und ich werde auch erwähnen:
Eine auditorische Transformation für die Audiosignalverarbeitung, WASPAA 2009
quelle