Lern-Roadmap für Einsteiger in die Audiosignalverarbeitung

13

Ich möchte mit dem Erlernen der Audiosignalverarbeitung beginnen. Es gibt zahlreiche Bücher online und wissenschaftliche Arbeiten, die die Grundlagen des Themas zu überspringen scheinen.

Ich möchte sozusagen eine grobe Roadmap kennen, um die Audiosignalverarbeitung erfolgreich zu erlernen.

Ich habe gelesen, dass Kalkül der erste Schritt ist, bevor ich mit der Signalanalyse beginne.

Für mich ist die Audiosignalanalyse nur ein Teil des erforderlichen Gesamtwissens. Wo andere Themen Musiktheorie, Tontechnik und Programmierung sind.

Wenn ich Personen mit Kenntnissen auf diesem Gebiet auffordern darf, mögliche Schritte zum Verständnis der Analyse und Bearbeitung / Erstellung von Audiosignalen vorzuschlagen.

jarryd
quelle
Ich würde zustimmen, dass ein Hintergrund in der Analysis (zumindest) wichtig ist, damit Sie die Mathematik verstehen, die Sie in einem Text oder Kurs zur Signal- und Systemtheorie antreffen könnten. Ich würde sicherstellen, dass Sie zuerst dort schnupfen.
Jason R
1
Diese Folien könnten helfen. Sie lernen einige nicht mathematische / technische Grundlagen der Audioverarbeitung und Audioprogrammierung kennen. blog.bjornroche.com/2011/11/…
Björn Roche

Antworten:

9

Ich glaube nicht, dass es Sinn macht, in die Komplexität von DFT / FFT / IIR / FIR und Wavelets einzutauchen, ohne vorher zu verstehen, was Audio grundlegend ist und welche verschiedenen Arten es gibt, Audio digital darzustellen.

Was ist Audio im Allgemeinen (in Luft, nicht in Wasser oder anderen Materialien):

  • Audio besteht aus Schalldruckwellen
  • Sie bewirken eine Kompression und Verdünnung der Luft
  • Diese Wellen breiten sich vom Quellpunkt nach außen aus
  • Wellen können sich gegenseitig stören und Spitzen und Täler verursachen
  • Wellen können von Materialien absorbiert und reflektiert werden

Wie wird Audio elektrisch dargestellt:

  • Ein Mikrofon und ein Vorverstärker wandeln die Schalldruckwellen in ein elektrisches Signal um
  • Typischerweise hat dieses Signal sowohl eine positive als auch eine negative Spannung (wie Wechselspannungen)
  • Magnetbänder speichern diese Unterschiede so, wie sie erscheinen, daher der Begriff Analog
  • Eine Sättigung tritt auf, wenn die Stärke des Eingangssignals den Grenzen des Systems entspricht (weitere Spannungserhöhungen können nicht genau dargestellt werden).
  • Übersteuerung tritt auf, wenn das Eingangssignal höher ist als vom System dargestellt werden kann, sodass das Signal übersteuert (oder an den Extremitäten begrenzt) wird.

Wie wird Audio digital dargestellt:

  • Audio muss zuerst mit einem ADC (Analog-Digital-Wandler) abgetastet werden
  • Das Abtasten umfasst das periodische elektrische Messen eines Audiosignals
  • Diese Periode wird als Abtastrate bezeichnet und bestimmt die höchste darstellbare Frequenz (Nyquist-Grenze).
  • Die Nyquist-Grenze ist die Abtastrate / 2 (je näher die Grenze rückt, desto schlechter wird das Signal dargestellt).
  • Der Bitrange bestimmt das Grundrauschen (-96 dB für 16 Bit gegenüber -48 dB für 8 Bit)
  • Ein einzelnes 16-Bit-Audio-Sample kann ein (vorzeichenbehafteter) Wert zwischen -32768 und 32767 sein (dies kann sowohl den negativen als auch den positiven Swing des analogen Signals darstellen).
  • Es sind nur 8 Bits pro Byte (in Bezug auf den Computerspeicher) zulässig, sodass ein 16-Bit-Sample durch mindestens 2 Bytes dargestellt werden muss
  • Die Reihenfolge, in der diese Bytes gespeichert werden, wird als Endian-Typ bezeichnet (groß oder klein).
  • Stereo-Samples erfordern ein separates Sample für jeden Kanal, eines für links und eines für rechts

Welche unterschiedlichen Methoden werden zum Speichern von digitalem Audio verwendet:

  • PCM (pulscodemoduliert) ist die gebräuchlichste unkomprimierte Art, Audio digital zu speichern
  • Es gibt viele Komprimierungen, um die Menge der verwendeten Daten zu verringern, einige sind verlustfrei, andere verlustbehaftet
  • WAV-Dateien sind nicht komprimiert und können mono oder stereo sein (verschachtelte Samples)
  • MP3-Dateien sind komprimiert, verlustbehaftet und verwenden Psychoakustik, um sehr hohe Datenkomprimierungsraten zu erzielen
  • Selbst der niedrigste Bitbereich (1 Bit) kann je nach Verwendung nützlich sein. Dies sind normalerweise Geschenkkarten, die Audio wiedergeben, das als 1 Bit gespeichert ist

So machen Sie sich mit Audio im digitalen Bereich vertraut:

  • Mach und mach mehr! Laden Sie ein Programm wie Audacity herunter und erstellen Sie unterschiedliche Audiodateien mit unterschiedlichen Abtastraten und Bitbereichen
  • Erstellen Sie Sinus / Dreieck / Quadrat und Sägezahn-Töne und hören Sie die Unterschiede
  • Erfahren Sie, wie Sie den Unterschied zwischen Typen wie einer 8-Bit-10-kHz-Datei und einer 16-Bit-44,1-kHz-Datei (CD-Qualität) erkennen können.
  • Experimentieren Sie mit Hochpass- / Tiefpass- / Bandpassfiltern und hören Sie die Unterschiede
  • Schieben Sie die Signale über ihre Sättigungsgrenze hinaus, um zu verstehen, wie sich das Abschneiden auf das Audiosignal auswirkt
  • Wenden Sie Hüllkurven auf Signale an, wenn Ihre Software über diese Funktion verfügt
  • Es gibt einen Unterschied zwischen unharmonischen und harmonischen Verzerrungen. Experimentieren Sie mit beiden
  • Verwenden Sie ein Spektrogramm (FFT), um diese und andere Signale zu sehen und sich mit ihnen vertraut zu machen
  • Verwenden Sie sowohl lineare als auch logarithmische Darstellungen, um die Unterschiede zu erkennen
  • Down- und Upsamplesignale und hören Sie, wie sich dies auf das Audio auswirkt
  • Verwenden Sie verschiedene Dithering-Methoden (beim Konvertieren von Bitbereichen) und hören Sie die Unterschiede

Dies gibt Ihnen hoffentlich einen Eindruck davon, was digital dargestelltes Audio ist und wie sich die Unterschiede anhören, bevor Sie einen DSP versuchen. Es ist immer einfacher zu erkennen, dass etwas mit Ihrer FFT-Analyse nicht stimmt, wenn Sie feststellen, dass Sie beispielsweise ein 8-Bit-Signal gegenüber einem 16-Bit-Signal eingegeben haben oder dass die Abtastrate durch eine fehlerhafte Fehlberechnung in einer Transformation verfälscht wurde.

ronnied
quelle
Danke für die Antwort. Ich bin mir dieser Dinge jedoch bewusst und möchte jetzt auf die dsp-Codierungsseite eingehen.
Jarryd