Theorie hinter der linearen prädiktiven Codierung (LPC)

9
  • Was ist die Theorie hinter LPC?
  • Warum werden (wurden) , um bestimmte Implementierungen von LPC genannten toleranten Transmissions- oder kodierend seines Fehler Quantisierung als andere komprimierte Sprachcodierungsschemen?

  • Können LPC-Methoden auch zur Glättung oder kurzfristigen "Vorhersage" verwendet werden, ähnlich wie bei Kalman-Filtermethoden?

  • Unter welchen Bedingungen oder Einschränkungen ist die Verwendung von LPC gültig?
hotpaw2
quelle
"Warum soll (war) LPC toleranter gegenüber Übertragungs- oder Codierungsfehlern sein als einige andere komprimierte Sprachcodierungsschemata?" Wer hat das gesagt? Ich kenne LPC nicht sehr gut, aber ich dachte, es hätte mit der Reduzierung der Redundanz zu tun, was den gegenteiligen Effekt hätte.
Endolith
Diese Frage ist irreführend, da sie unter falschen Voraussetzungen steht. Bitte schließen und korrigieren Sie dies.
Dipan Mehta
Hier gibt es mehrere Fragen und Prämissen. Welche müssen Ihrer Meinung nach repariert werden?
hotpaw2
1
Die Aussage Why are(were) certain implementations of LPC said to be more tolerant of transmission or encoding errors quantization than other compressed voice encoding schemes?ist eher falsch. Können Sie eine Referenz zitieren, die speziell sagt, was besser ist als andere?
Dipan Mehta
1
Das ist eigentlich meine Frage. Ich habe das irgendwo gehört, weiß aber nicht, warum das gesagt worden sein könnte.
hotpaw2

Antworten:

14

Erstens ist es nicht ganz richtig zu sagen, dass die lineare Vorhersagecodierung (LPC) "toleranter gegenüber Übertragungs- oder Codierungsfehlern" ist. Die Form, in der die Koeffizienten übertragen werden, macht einen großen Unterschied. Wenn beispielsweise die linearen Vorhersagekoeffizienten gelöst werden, können sie sehr empfindlich gegenüber Quantisierung sein, ähnlich wie IIR-Filterkoeffizienten hoher Ordnung (dies liegt daran, dass das Synthesefilter IIR ist, aber dazu später mehr). Wenn sie jedoch in einer anderen Form übertragen werden, kann dieses Problem leicht gemindert werden.

Eine Möglichkeit besteht darin, die Reflexionskoeffizienten zu übertragen. Wenn Sie rekursiv nach einem linearen Vorhersagefilter k-ter Ordnung auflösen, wird der Koeffizient höchster Ordnung in jeder Stufe als Reflexionskoeffizient bezeichnet. Diese können zusammen verwendet werden, um das System vollständig zu charakterisieren (was aus der Levinson-Rekursion leicht ersichtlich ist). Tatsächlich können Sie alle zusammen verwenden, um einen Gitterfilter zu bilden. Diese Filter werden häufig verwendet, wenn die Quantisierung ein Problem darstellt, da sie gegenüber niedrigen Bitzahlen viel robuster sind. Wenn die Größe dieser Reflexionskoeffizienten durch Eins begrenzt ist, ist Ihnen außerdem ein BIBO-stabiles Filter garantiert, das für LPC von entscheidender Bedeutung ist, wenn das Filter zur Synthese Ihres Signals verwendet wird. Es gibt andere Methoden wie Linienspektralpaare, die häufig verwendet werden, aber nicht

Um nun die erste Frage zu beantworten, dreht sich die Theorie der LPC um die Modellierung des Stimmapparates. Im Wesentlichen modellieren wir Sprache als Luft, die als Eingabe für eine Röhre mit einer bestimmten Struktur vibriert. Sie können nach Ressourcen suchen, die viel detaillierter sind, um dieses Modell zu verfeinern (Länge der Röhren, Intensität der Luft, Struktur usw.). Diese Ressourcen beziehen diese Strukturen direkt auf IIR-Filter, die auf verschiedene Reize reagieren, beispielsweise auf weißes Rauschen.

Wenn wir also nach den linearen Vorhersagekoeffizienten suchen, suchen wir nach den Koeffizienten, sodass wir weißes Rauschen als Ausgabe erhalten, wenn wir unser Signal (z. B. Sprache) in ein aus den Koeffizienten erstelltes FIR-Filter eingeben. Überlegen Sie also, was das bedeutet. Wir geben einen hohen Wert einkorreliertes Signal und Ausgabe einer weißen Rauschsequenz. Tatsächlich entfernen wir also alle linearen Abhängigkeiten dieses Signals. Eine andere Möglichkeit, dies zu betrachten, besteht darin, dass alle aussagekräftigen Informationen in den Koeffizienten enthalten sind, die diese lineare Abhängigkeit beseitigen. Daher können wir diese Koeffizienten (oder eine Form davon wie oben) übertragen, und das Empfangsende kann das Signal neu erzeugen. Dies erfolgt durch Invertieren des linearen prädiktiven FIR-Filters, um ein IIR-Filter zu erstellen, und Eingeben von weißem Rauschen. Die Komprimierung ergibt sich also aus dem Entfernen dieser linearen Abhängigkeit und dem Übertragen der Koeffizienten. Aus diesem Grund wird die Burg-Methode manchmal auch als Maximum-Entropie-Methode bezeichnet, da sie darauf abzielt, die "Zufälligkeit" oder den Weißgrad des Ausgangsrauschens im linearen Vorhersagefilter zu maximieren. Eine andere Sichtweise,

Um Ihre letzte Frage zu beantworten, bin ich mir nicht sicher, was Sie ganz fragen. LPC oder lineare Vorhersagecodierung soll das Signal "komprimieren", unter der Annahme, dass es wie zuvor diskutiert effizient modelliert werden kann. Sie können sicherlich eine lineare Vorhersage verwenden, um eine "kurzfristige Vorhersage" durchzuführen, wie Sie bereits erwähnt haben. Dies ist die implizite Grundlage für die hochauflösenden AR-Methoden, die zur Schätzung der spektralen Leistungsdichte verwendet werden. Die Autokorrelationssequenz kann rekursiv von ihrer endlichen Form vom begrenzten Datensatz bis ins Unendliche als theoretische Autokorrelationssequenz der nicht geglätteten Sequenz erweitert werden. Dies ist auch der Grund, warum AR-Methoden zur PSD-Schätzung keine Nebenkeulenphänomene aufweisen.

Bryan
quelle
1
"Die Theorie der LPC dreht sich um die Modellierung des Stimmapparates" Stimmt das immer? FLAC verwendet LPC für generische Audio-Wellenformen, nicht nur für Sprache.
Endolith
3
Ich entschuldige mich, ich habe es ursprünglich durch die Analogie der Stimmbänder als physikalisches Modell gelernt, aus dem das stammt. Wie gesagt, es gibt Orte, an denen sie sich viel tiefer damit befassen. Aber Sie haben Recht, LPC ist für generische Audio-Wellenformen geeignet. Wie bereits erwähnt, funktioniert es in jedem impulsiven Spektrum. Folglich funktioniert es schlecht bei verrauschten Signalen, bei denen das Spektrum weniger impulsiv ist (dies liegt daran, dass verrauschte Signale besser als ARMA-Prozesse modelliert werden).
Bryan