Ich muss eine Kreuzkorrelation zwischen zwei Audiodateien herstellen, um zu beweisen, dass sie ähnlich sind. Ich habe die FFT der beiden Audiodateien genommen und deren Leistungsspektrumswerte in separaten Arrays gespeichert.
Wie soll ich weiter vorgehen, um eine Kreuzkorrelation herzustellen und zu beweisen, dass sie ähnlich sind? Gibt es einen besseren Weg, es zu tun? Grundlegende Ideen helfen mir, sie zu lernen und anzuwenden.
audio
fft
waveform-similarity
cross-correlation
Lorem Ipsum
quelle
quelle
Antworten:
Kreuzkorrelation und Faltung sind eng miteinander verbunden. Kurz gesagt, um mit FFTs Faltung zu machen, Sie
conv(a, b) = ifft(fft(a_and_zeros) * fft(b_and_zeros))
Sie müssen das Auffüllen mit Nullen durchführen, da es sich bei der FFT-Methode um eine zirkuläre Kreuzkorrelation handelt, dh, das Signal wird an den Enden herumgewickelt. Sie addieren also genügend Nullen, um die Überlappung zu beseitigen und ein Signal zu simulieren, das null bis unendlich ist.
Um Kreuzkorrelation statt Faltung zu erhalten, müssen Sie entweder eines der Signale vor der FFT zeitlich umkehren oder das komplexe Konjugat eines der Signale nach der FFT nehmen:
corr(a, b) = ifft(fft(a_and_zeros) * fft(b_and_zeros[reversed]))
corr(a, b) = ifft(fft(a_and_zeros) * conj(fft(b_and_zeros)))
je nachdem, was mit Ihrer Hardware / Software einfacher ist. Für die Autokorrelation (Kreuzkorrelation eines Signals mit sich selbst) ist es besser, das komplexe Konjugat durchzuführen, da Sie dann die FFT nur einmal berechnen müssen.
Wenn die Signale echt sind, können Sie echte FFTs (RFFT / IRFFT) verwenden und die Hälfte Ihrer Rechenzeit sparen, indem Sie nur die Hälfte des Spektrums berechnen.
Sie können auch Rechenzeit sparen, indem Sie eine größere Größe auffüllen, für die die FFT optimiert ist (z. B. eine 5-glatte Zahl für FFTPACK, eine ~ 13-glatte Zahl für FFTW oder eine Potenz von 2 für eine einfache Hardwareimplementierung).
Hier ist ein Beispiel der Python-FFT-Korrelation im Vergleich zur Brute-Force-Korrelation: https://stackoverflow.com/a/1768140/125507
Dadurch erhalten Sie die Kreuzkorrelationsfunktion, die ein Maß für die Ähnlichkeit gegenüber dem Offset ist. Um den Versatz zu erhalten, bei dem die Wellen "aneinandergereiht" sind, gibt es eine Spitze in der Korrelationsfunktion:
Der x-Wert des Peaks ist der Offset, der negativ oder positiv sein kann.
Ich habe nur gesehen, dass dies verwendet wurde, um den Versatz zwischen zwei Wellen zu finden. Sie können eine genauere Schätzung des Offsets (besser als die Auflösung Ihrer Proben) erhalten, indem Sie eine parabolische / quadratische Interpolation für den Peak verwenden.
Um einen Ähnlichkeitswert zwischen -1 und 1 zu erhalten (ein negativer Wert, der anzeigt, dass eines der Signale abnimmt, wenn das andere zunimmt), müssen Sie die Amplitude entsprechend der Länge der Eingänge, der Länge der FFT und Ihrer speziellen FFT-Implementierung skalieren Skalierung usw. Die Autokorrelation einer Welle mit sich selbst gibt Ihnen den Wert der maximal möglichen Übereinstimmung.
Beachten Sie, dass dies nur bei Wellen funktioniert, die dieselbe Form haben. Wenn sie auf einer anderen Hardware abgetastet wurden oder Rauschen hinzugefügt wurden, aber ansonsten immer noch dieselbe Form haben, funktioniert dieser Vergleich. Wenn die Wellenform jedoch durch Filterung oder Phasenverschiebung geändert wurde, klingen sie möglicherweise gleich, haben aber gewonnen auch nicht korrelieren.
quelle
Korrelation ist eine Möglichkeit, die Ähnlichkeit von zwei Zeitreihen (in Ihrem Fall Audio-Samples) in einer Zahl auszudrücken. Es ist eine Anpassung der Kovarianz, die wie folgt implementiert wird:
Die Korrelation ist die normalisierte Version der Kovarianz, bei der es sich um die Kovarianz handelt, die durch das Produkt der Standardabweichungen beider Zeitreihen dividiert wird. Die Korrelation ergibt eine 0, wenn keine Korrelation vorliegt (absolut nicht ähnlich), und eine 1 für die totale Korrelation (absolut ähnlich).
Sie können sich vorstellen, dass zwei Klangbeispiele ähnlich, aber nicht synchronisiert sind. Das ist , wo Kreuzkorrelation kommen Sie die Korrelation zwischen der Zeitreihe zu berechnen , wo Sie haben eine von ihnen durch eine Probe verschoben.:
Suchen Sie dann den Maximalwert in der
corr
Reihe und Sie sind fertig. (oder hören Sie auf, wenn Sie eine ausreichende Korrelation gefunden haben) Natürlich steckt etwas mehr dahinter. Sie müssen die Standardabweichung implementieren und Sie müssen etwas Speicherverwaltung durchführen und das zeitversetzte Zeug implementieren. Wenn alle Audio-Samples gleich lang sind, müssen Sie möglicherweise die Kovarianz nicht normalisieren und die Cross-Kovarianz berechnen.Eine coole Beziehung zu Ihrer früheren Frage : Die Fourier-Analyse ist nur eine Anpassung der Kreuz-Kovarianz. Anstatt eine Zeitreihe zu verschieben und die Kovarianzen mit dem anderen Signal zu berechnen, berechnen Sie die Kovarianzen zwischen einem Signal und einer Anzahl von (Co) Sinuswellen mit unterschiedlichen Frequenzen. Es basiert alles auf dem gleichen Prinzip.
quelle
Bei der Signalverarbeitung ist die Kreuzkorrelation (xcorr in MATLAB) eine Faltungsoperation, bei der eine der beiden Sequenzen umgekehrt ist. Da die Zeitumkehrung einer komplexen Konjugation im Frequenzbereich entspricht, können Sie die DFT verwenden, um die Kreuzkorrelation wie folgt zu berechnen:
Dabei ist N = Größe (x) + Größe (y) - 1 (vorzugsweise auf eine Potenz von 2 aufgerundet) die Länge der DFT.
Die Multiplikation von DFTs entspricht einer zirkulären Faltung in der Zeit. Das Null-Auffüllen beider Vektoren auf die Länge N verhindert, dass sich die zirkular verschobenen Komponenten von y mit x überlappen, wodurch das Ergebnis mit der linearen Faltung von x und der Zeitumkehrung von y identisch wird.
Eine Verzögerung von 1 ist eine Verschiebung des rechten Kreises um y, während eine Verzögerung von -1 eine Verschiebung des linken Kreises ist. Die Kreuzkorrelation ist einfach die Folge von Punktprodukten für alle Verzögerungen. Basierend auf der Standard-FFT-Bestellung befinden sich diese in einem Array, auf das wie folgt zugegriffen werden kann. Die Indizes 0 bis Größe (x) -1 sind die positiven Verzögerungen. Die Indizes N-Größe (y) +1 bis N-1 sind die negativen Verzögerungen in umgekehrter Reihenfolge. (In Python kann auf die negativen Verzögerungen bequem mit negativen Indizes wie R_xy [-1] zugegriffen werden.)
Sie können sich die mit Nullen aufgefüllten x und y als n-dimensionale Vektoren vorstellen. Das Skalarprodukt von x und y für eine gegebene Verzögerung ist
|x|*|y|*cos(theta)
. Die x- und y-Normen sind für kreisförmige Verschiebungen konstant. Wenn Sie sie also aufteilen, bleibt nur der variierende Cosinus des Winkels Theta übrig. Wenn x und y (für eine gegebene Verzögerung) im N-Raum orthogonal sind, ist die Korrelation 0 (dh Theta = 90 Grad). Wenn sie kolinear sind, ist der Wert entweder 1 (positiv korreliert) oder -1 (negativ korreliert, dh Theta = 180 Grad). Dies führt zu der Kreuzkorrelation, die auf Eins normiert ist:Dies kann vorurteilsfrei gemacht werden, indem die Normen nur für die überlappenden Teile neu berechnet werden. Sie können jedoch auch die gesamte Berechnung im Zeitbereich durchführen. Außerdem sehen Sie verschiedene Versionen der Normalisierung. Manchmal wird die Kreuzkorrelation nicht auf 1 normiert, sondern auf M (voreingenommen), wobei M = max (Größe (x), Größe (y)) oder M- | m | (eine unvoreingenommene Schätzung der m. Verzögerung).
Für maximale statistische Signifikanz sollte der Mittelwert (DC Bias) vor der Berechnung der Korrelation entfernt werden. Dies nennt man die Cross-Kovarianz (xcov in MATLAB):
quelle
2*size (a) + size(b) - 1
oder2*size (b) + size (a) - 1
? In beiden Fällen sind die beiden gepolsterten Arrays jedoch unterschiedlich groß. Was ist die Folge des Auffüllens mit zu vielen Nullen?b
entlanga
mit einem Ausgang pro Schicht, eine minimale Überlappung von einer Probe. Das ergibtsize(a)
positive undsize(b) - 1
negative Verzögerungen. Unter Verwendung der inversen Transformation des Produkts von N-Punkt-DFTs sind die Indizes0
durchsize(a)-1
die positiven Verzögerungen und die IndizesN-size(b)+1
durchN-1
die negativen Verzögerungen in umgekehrter Reihenfolge.Wenn Sie Matlab verwenden, probieren Sie die Kreuzkorrelationsfunktion aus:
Hier ist die Matlab-Dokumentation:
quelle
Eine schnelle und einfache Möglichkeit, Audiodateien zu vergleichen. Nehmen Sie die Audiodatei, kopieren Sie sie, fügen Sie sie in einer Morgendämmerung nebeneinander in 2 Stereokanäle ein, vertauschen Sie die Phase auf einer der Stereospuren, richten Sie beide Dateien am Anfang im Zoommodus aus, und achten Sie darauf, dass die beide dateien haben am anfang die gleiche amplitude, dann spielen sie ab, wenn es absolute stille gibt, dann sind beide dateien identisch, wenn es einen unterschied gibt, hören sie das ziemlich deutlich !.
quelle
Wie die meisten hier geschrieben haben, sollten Sie Korrelation verwenden.
Nehmen Sie einfach 2 Faktoren in Betracht:
quelle
Der einfachste Weg, den Unterschied zu finden, besteht darin, die beiden Audiosignale im Zeitbereich zu subtrahieren. Wenn sie gleich sind, ist das Ergebnis zu jedem Zeitpunkt Null. Wenn sie nicht gleich sind, bleibt der Unterschied zwischen ihnen nach der Subtraktion bestehen und Sie können ihn direkt anhören. Ein schnelles Maß dafür, wie ähnlich sie sind, wäre der Effektivwert dieser Differenz. Dies geschieht häufig beim Mischen und Mastern von Audiodaten, um beispielsweise den Unterschied zwischen MP3- und WAV-Dateien zu erkennen. (Das Invertieren und Addieren der Phase eines Signals entspricht dem Subtrahieren. Dies ist die Methode, die in der DAW-Software verwendet wird.) Sie müssen zeitlich perfekt aufeinander abgestimmt sein, damit dies funktioniert. Wenn dies nicht der Fall ist, können Sie einen Algorithmus entwickeln, um sie auszurichten, z. B. die Top-Ten-Peaks zu ermitteln, den durchschnittlichen Offset der Peaks zu berechnen und ein Signal zu verschieben.
Beim Transformieren in den Frequenzbereich und Vergleichen der Leistungsspektren der von Ihnen vorgeschlagenen Signale werden einige Zeitbereichsinformationen ignoriert. Beispielsweise würde umgekehrt wiedergegebenes Audio bei Vorwärtswiedergabe dasselbe Spektrum aufweisen. Somit könnten zwei sehr unterschiedliche Audiosignale genau dasselbe Spektrum haben.
quelle