Soweit ich weiß, hat die DCT die Hälfte der Bin-Größe einer DFT der gleichen Größe N. Die DFT enthält auch Phaseninformationen, die jedoch häufig nicht benötigt werden, wenn nur das Betragsspektrum gewünscht wird.
- Könnte die DCT verwendet werden, um ein Größenspektrum mit der doppelten Dichte (dem halben Bin-Abstand) der DFT bereitzustellen, oder würden Informationen über die Phasenverschiebung verloren gehen?
- Wie wäre es mit einer Überlappung von 50%?
Antworten:
Ja, DCT kann verwendet werden, um ein Größenspektrum mit der doppelten Dichte bereitzustellen. Ich verstehe Überlappungen nicht ganz, gehe aber davon aus, dass Sie eine Überlappung erwartet haben, da DCT weniger abdeckt. Lassen Sie mich einen kurzen Überblick über die Verwendung von DCT hauptsächlich in der Bildverarbeitung geben, um eine geeignete Antwort auf die Frage zu erhalten.
Zunächst müssen wir einige Annahmen treffen. Um DCT verwenden zu können, benötigen Sie ein echtes Signal. Dies ist per Definition. Während Sie sagen, dass DCT im Vergleich zu DFT in Größe N die Hälfte der Bin-Größe hat, gehen Sie davon aus, dass das Signal ein Niederfrequenzsignal ist. Ansonsten nicht so sehr.
Für die Verwendung von DCT bei der Komprimierung erzeugt die DFT des Bildes, da sie symmetrisch ist, redundante Informationen (ein Seitenspiegel reicht aus, um das Signal zu reproduzieren). Daher wird der DCT-Kern verwendet, um im Vergleich zur DFT dichtere Informationen zu erzeugen. Dies gilt auch für niederfrequente Audiosignale und kann auf die gleiche Weise verwendet werden. Während es dichter wird, werden die Koeffizienten größer, da der Kern der DCT beide Seiten (Real- und Imaginärteil) des Signals abdeckt.
Mein Hauptfach ist Bildverarbeitung, deshalb habe ich versucht, DCT- und DFT-Konzepte und Erklärungen in der Bildverarbeitung abzubilden. Ein Unterschied zwischen Bild und Ton könnte jedoch die Größe sein. In der Bildverarbeitung kennen Sie die Größen (Zeilen und Spalten für FFT und andere Zwecke der Verarbeitung). Ich vermute, dass Sie den Vektor der Audiodaten irgendwie teilen müssen, um weiterzuverarbeiten. Ohne Kenntnis der Daten könnte dies problematisch sein (da bin ich mir nicht sicher).
Hier ist ein Bild aus dem Web, aber ich habe es nicht aufgeschrieben, wo ich es aufgenommen habe, könnte Wikipedia sein .;
Wie Sie sehen können, wird das transformierte Bild in der DCT problemlos als Magnitudenspektrum dargestellt. Kompakter und dichter, und schauen Sie sich die Größe der Koeffizienten an. Es ist größer als das Zweifache der DFT. DFT ist symmetrisch, Sie können es einfach in zwei Teile teilen. Ein Teil ist überflüssig. Und eine weitere Sache, DCT kann die Informationen speichern, ist nicht nur die Hälfte der DFT, sondern fast ein Viertel der DFT. Dies ist im Allgemeinen der Fall, wenn die DCT die DFT in Bildern überwindet.
quelle
Aus dieser Frage geht hervor, dass Sie darüber nachdenken, eine lokalisierte Blockverarbeitung in der Art eines gleitenden Fourier- oder Spektrogramms durchzuführen.
Wenn Sie über das Betragsspektrum sprechen, geht natürlich ein Teil der Phase (sei es das Argument eines komplexen Fourier-Koeffizienten oder das Vorzeichen eines DCT-Koeffizienten) verloren .
Natürlich können Sie viele Kernel als Ersatz für die fenstergesteuerte Fourier-Transformation innerhalb der Kurzzeit-Fourier-Formulierung nur zur Analyse einsetzen. Die verschiedenen DCT-Rassen, deren überlappende Versionen (LOT, MDCT) mit guten orthogonalen und Fenstereigenschaften, können sogar invertiert werden (Synthese).
In Audio, (nicht komplexe) DCT oder überlappenden Versionen wird oft für die Analyse verwendet, Einsetzen und die Tonhöhenerkennung, (Blind Source Separation) es ist zum Beispiel der STFT, MDCT und Inversen Toolbox Matlab von A. Liutkus. Die Large-Time-Frequenzanalyse-Toolbox (LTFAT) verfügt außerdem über:
Ich kenne Audio nicht sehr gut. Eine Überlappung von 50% oder 75% ist jedoch sehr häufig, und nur sehr wenige Benutzer verwenden andere Einstellungen. Es ist jedoch sehr üblich, mindestens zwei Fenstergrößen zu verwenden , eine lange mit stationärem Teil und eine kurze mit vorübergehendem Teil, um die Zeit-Frequenz-Begrenzung "mit einem Fenster" zu überwinden.
quelle