Welche Transformation imitiert das menschliche Hörsystem am ehesten?

12

Die Fourier-Transformation wird üblicherweise zur Frequenzanalyse von Klängen verwendet. Es hat jedoch einige Nachteile, wenn es darum geht, die menschliche Wahrnehmung von Schall zu analysieren. Beispielsweise sind seine Frequenzbereiche linear, während das menschliche Ohr logarithmisch und nicht linear auf die Frequenz reagiert .

Wavelet-Transformationen können im Gegensatz zur Fourier-Transformation die Auflösung für verschiedene Frequenzbereiche ändern . Die Eigenschaften der Wavelet-Transformation ermöglichen große zeitliche Abstützungen für niedrigere Frequenzen, während kurze zeitliche Breiten für höhere Frequenzen beibehalten werden.

Das Morlet-Wavelet ist eng mit der menschlichen Hörwahrnehmung verwandt. Es kann auf die Transkription von Musik angewendet werden und liefert sehr genaue Ergebnisse, die mit Fourier-Transformationstechniken nicht möglich sind. Es ist in der Lage, kurze Serien von sich wiederholenden und abwechselnden Musiknoten mit einer eindeutigen Start- und Endzeit für jede Note zu erfassen.

Die Konstant-Q-Transformation (eng verwandt mit der Morlet-Wavelet-Transformation) eignet sich auch gut für Musikdaten . Da der Ausgang der Transformation effektiv Amplitude / Phase gegen die logarithmische Frequenz ist, sind weniger Spektralbereiche erforderlich, um einen bestimmten Bereich effektiv abzudecken, und dies erweist sich als nützlich, wenn die Frequenzen mehrere Oktaven umfassen.

Die Transformation zeigt eine Verringerung der Frequenzauflösung bei höheren Frequenzbereichen, was für Höranwendungen wünschenswert ist. Es spiegelt das menschliche Gehör wider, wobei bei niedrigeren Frequenzen die spektrale Auflösung besser ist, während sich die zeitliche Auflösung bei höheren Frequenzen verbessert.

Meine Frage lautet: Gibt es andere Transformationen, die das menschliche Hörsystem genau nachahmen? Hat jemand versucht, eine Transformation zu entwerfen, die anatomisch / neurologisch so gut wie möglich zum menschlichen Gehör passt?

Beispielsweise ist bekannt, dass menschliche Ohren logarithmisch auf die Schallintensität reagieren . Es ist auch bekannt, dass Konturen gleicher Lautstärke nicht nur mit der Intensität, sondern auch mit dem Frequenzabstand der Spektralkomponenten variieren . Geräusche, die Spektralkomponenten in vielen kritischen Bändern enthalten, werden auch dann als lauter empfunden, wenn der Gesamtschalldruck konstant bleibt.

Schließlich hat das menschliche Ohr eine frequenzabhängig begrenzte zeitliche Auflösung . Vielleicht könnte dies auch berücksichtigt werden.

user76284
quelle
Verhängst du irgendwelche mathematischen Einschränkungen für "transformieren"?
Olli Niemitalo
2
Ein großes Lob für alle Links!
Gilles
Keine einzelne Transformation kann ein so komplexes System angemessen imitieren wie das menschliche Hörsystem. Die vorhandenen HAS- Modelle verwenden komplizierte Signalverarbeitungsarchitekturen und mehrere Transformationen, die jeweils einen anderen Aspekt des Hörens modellieren. Vielleicht möchten Sie die Modellierung Stück für Stück in Betracht ziehen.
Fat32

Antworten:

9

Bei der Gestaltung solcher Transformationen sollten konkurrierende Interessen berücksichtigt werden:

  • Treue zum menschlichen Hörsystem (das mit den Menschen variiert), einschließlich nichtlinearer oder sogar chaotischer Aspekte (Tinnitus)
  • Leichtigkeit der mathematischen Formulierung für den Analyseteil
  • Möglichkeit, es zu diskretisieren oder schnelle Implementierungen zu ermöglichen
  • Existenz eines geeigneten stabilen Inversen

In letzter Zeit sind mir zwei Designs aufgefallen: Auditory-motivated Gammatone Wavelet Transform , Signal Processing, 2014

Die Fähigkeit der kontinuierlichen Wavelet-Transformation (CWT), eine gute Zeit- und Frequenzlokalisierung bereitzustellen, hat sie zu einem beliebten Werkzeug für die Zeit-Frequenz-Analyse von Signalen gemacht. Wavelets weisen eine konstante Q-Eigenschaft auf, die auch die Basilarmembranfilter im peripheren Gehör besitzen. Die Basilarmembranfilter oder Hörfilter werden häufig durch eine Gammatone-Funktion modelliert, die eine gute Annäherung an experimentell bestimmte Antworten liefert. Die von diesen Filtern abgeleitete Filterbank wird als Gammatone-Filterbank bezeichnet. Im Allgemeinen kann die Wavelet-Analyse mit einer Filterbank-Analyse verglichen werden, was die interessante Verbindung zwischen der Standard-Wavelet-Analyse und der Gammatone-Filterbank darstellt. Die Gammatone-Funktion qualifiziert sich jedoch nicht genau als Wavelet, da ihr Zeitmittelwert nicht Null ist. Wir zeigen, wie echte Wavelets aus Gammatone-Funktionen konstruiert werden können. Wir analysieren Eigenschaften wie Zulässigkeit, Zeit-Bandbreiten-Produkt, Momente des Verschwindens, die im Kontext von Wavelets besonders relevant sind. Wir zeigen auch, wie die vorgeschlagenen auditorischen Wavelets als Impulsantwort eines linearen, verschiebungsinvarianten Systems erzeugt werden, das durch eine lineare Differentialgleichung mit konstanten Koeffizienten gesteuert wird. Wir schlagen analoge Schaltungsimplementierungen des vorgeschlagenen CWT vor. Wir zeigen auch, wie die von Gammatone abgeleiteten Wavelets zur Erkennung von Singularitäten und zur Zeit-Frequenz-Analyse von transienten Signalen verwendet werden können. Wir zeigen auch, wie die vorgeschlagenen auditorischen Wavelets als Impulsantwort eines linearen, verschiebungsinvarianten Systems erzeugt werden, das durch eine lineare Differentialgleichung mit konstanten Koeffizienten gesteuert wird. Wir schlagen analoge Schaltungsimplementierungen des vorgeschlagenen CWT vor. Wir zeigen auch, wie die von Gammatone abgeleiteten Wavelets zur Erkennung von Singularitäten und zur Zeit-Frequenz-Analyse von transienten Signalen verwendet werden können. Wir zeigen auch, wie die vorgeschlagenen auditorischen Wavelets als Impulsantwort eines linearen, verschiebungsinvarianten Systems erzeugt werden, das durch eine lineare Differentialgleichung mit konstanten Koeffizienten gesteuert wird. Wir schlagen analoge Schaltungsimplementierungen des vorgeschlagenen CWT vor. Wir zeigen auch, wie die von Gammatone abgeleiteten Wavelets zur Erkennung von Singularitäten und zur Zeit-Frequenz-Analyse von transienten Signalen verwendet werden können.

Die ERBlet-Transformation: Eine auditorische Zeit-Frequenz-Darstellung mit perfekter Rekonstruktion , ICASSP 2013

Dieser Aufsatz beschreibt ein Verfahren zum Erhalten einer wahrnehmungsmotivierten und perfekt invertierbaren Zeit-Frequenz-Darstellung eines Schallsignals. Basierend auf der Rahmentheorie und der jüngsten instationären Gabor-Transformation wird eine lineare Darstellung mit sich über die Frequenz entwickelnder Auflösung als ungleichmäßige Filterbank formuliert und implementiert. Um die Zeit-Frequenz-Auflösung des menschlichen Gehörs anzupassen, verwendet die Transformation Gaußsche Fenster, die auf der psychoakustischen Frequenzskala „ERB“ in gleichen Abständen angeordnet sind. Darüber hinaus bietet die Transformation eine anpassbare Auflösung und Redundanz. Simulationen zeigten, dass eine perfekte Rekonstruktion mit schnellen iterativen Methoden und Vorkonditionierung auch mit einem Filter pro ERB und einer sehr geringen Redundanz (1,08) erreicht werden kann.

Und ich werde auch erwähnen:

Eine auditorische Transformation für die Audiosignalverarbeitung, WASPAA 2009

In diesem Artikel wird eine auditive Transformation vorgestellt. Durch einen Analyseprozess wandelt die Transformation Zeitdomänensignale in eine Reihe von Filterbankausgaben um. Die Frequenzgänge und Verteilungen der Filterbank ähneln denen in der Basilarmembran der Cochlea. Die Signalverarbeitung kann in der zerlegten Signaldomäne durchgeführt werden. Durch einen Synthesevorgang können die zerlegten Signale durch eine einfache Berechnung zum ursprünglichen Signal zurücksynthetisiert werden. Außerdem werden schnelle Algorithmen für zeitdiskrete Signale sowohl für die Vorwärts- als auch für die Rücktransformation vorgestellt. Die Transformation wurde theoretisch genehmigt und in Experimenten validiert. Ein Beispiel für eine Anwendung zur Geräuschreduzierung wird vorgestellt. Die vorgeschlagene Transformation ist robust gegenüber Hintergrund- und Rechengeräuschen und frei von Tonhöhenoberwellen.

Laurent Duval
quelle
1
Genau das habe ich gesucht. Vielen Dank.
user76284