Bei meiner unendlichen Suche nach Schnarchen habe ich festgestellt, dass "spektrale Flachheit" ein angemessenes Maß für die Signalqualität zu sein scheint.
Ich berechne die spektrale Ebenheit als das geometrische Mittel der Datenpunkte der FFT-Leistung geteilt durch das arithmetische Mittel derselben Punkte.
Ich berechne dann (hier eine kleine Wendung) das laufende (über 50 Bilder) arithmetische Mittel und die Standardabweichung der spektralen Ebenheit und berechne eine "normalisierte" Standardabweichung als laufende Standardabweichung geteilt durch das laufende Mittel.
Bei meinen Samples stelle ich fest, dass diese Metrik größer als etwa (bis zu 0,5 oder so), wenn der Ton "gut" ist (dh ich habe eine zuverlässige Verfolgung der Atem- / Schnarchgeräusche eines schlafenden Subjekts) und sie rutscht im Allgemeinen ab unter 0,2, wenn Audio "im Schlamm" ist. (Ich kann diese Unterscheidung etwas verbessern, indem ich einen Schwellenwert verwende, der sich mit anderen Faktoren bewegt, aber das ist vermutlich ein anderes Thema.) Ich beobachte auch, dass die Messung über 1,0 geht, wenn erhebliche Hintergrundgeräusche auftreten (z. B. wenn jemand den Raum betritt und raschelt ).
Meine grundlegende Frage lautet also: Gibt es einen Namen (jenseits der "normalisierten Standardabweichung der spektralen Ebenheit") für das, was ich messe, und kann jemand eine konzeptionelle Erklärung dafür anbieten, was die Metrik "bedeutet"?
(Ich habe ein Dutzend anderer Metriken für die Signalqualität ausprobiert, und diese scheint die bisher beste zu sein.)
Hinzugefügt: Ich sollte wahrscheinlich zugeben, dass ich keinen besonders guten konzeptionellen Überblick darüber habe, welche einfache spektrale Ebenheit gemessen wird (nur der Wikipedia-Artikel ), daher wäre jede weitere Erklärung dafür willkommen.
quelle
Antworten:
Da Sie an der "Ebenheit" Ihres Spektrums interessiert sind, interessiert Sie tatsächlich, wie nahe Ihr Signal an einem weißen Rauschen liegt (das per Definition ein flaches Spektrum + zufällige Phasen aufweist). Wenn Sie zurücktreten, ist ein Maß der "Abstand" Ihrer Beobachtung zur Referenz für weißes Rauschen .
Das naheliegende Maß für die Informationstheorie ist die Kullback-Leibler-Divergenz . Sie nicht brauchen jeden Teil davon zu verstehen, aber es misst in Bits den Abstand zwischen den beiden Verteilungen (wenn Sie Log - Basis 2 verwenden).
Das Gute in Ihrem Fall ist, dass Ihre Referenz flach ist, so dass die Entropie Ihres Spektrums übrig bleibt . Es gibt viele vorhandene Implementierungen (zum Beispiel in scipy ).
Beachten Sie, dass Sie immer noch auf der sicheren Seite sind: Wenn Ihre Verteilung ungefähr Gauß ist, sind beide Maße (Entropie und Standard) proportional. Die Entropie ist jedoch allgemeiner und prinzipieller. Als Erweiterung können Sie auf andere Arten von Geräuschen verallgemeinern (z. B. 1 / f).
quelle
p log p
- nicht viele Informationen für mein Problem zu vermitteln scheint. (Obwohl ich wahrscheinlich nicht versucht habe, die Standardabweichung zu nehmen.)Jeder zuverlässige konsistente Unterschied in der Statistik Ihres Signals (oder einer Funktion Ihres Signals, wie z. B. seines Spektrums) und dem Rauschen, in das Ihr Signal eingebettet ist, kann verwendet werden, um eine Wahrscheinlichkeit von einem gegenüber dem anderen zu schätzen.
Sie scheinen zufällig eine der wahrscheinlich unendlich vielen Möglichkeiten zur Charakterisierung der Signalspektrumform gefunden zu haben (auf die Sie gestoßen sind), die Ihr gewünschtes Signal von Dingen wie weißem Rauschen oder Impulsspitzen unterscheiden. Das Stolpern über eine zufällige mögliche Lösung macht sie nicht ungültig (das ist eine Grundlage der evolutionären / genetischen Programmierung). Aber wie robust eine Maßnahme ist, die Sie gefunden haben, bleibt als experimentelle Übung übrig.
quelle