Wie unterteilt man Telefonanruf-Audio in Stille / Nicht-Stille?

Mein Problem ist, dass ich die Energie des Hintergrundrauschens nicht kenne, also kann ich die Energie nicht einfach schwellen. Die Verarbeitung erfolgt in Echtzeit und ich habe ungefähr 500 ms Zeit, um mich zu entscheiden. Idealerweise möchte ich ruhige Konsonanten, die als nicht still gelten.

audio speech-recognition Michael Litvin
quelle

Ich habe nicht genügend Informationen, um eine vollständige Antwort zu geben, aber Ihr Problem wird als Sprachaktivitätserkennung bezeichnet . Es gibt keinen einzigen vereinbarten besten Weg, dies zu tun, und wenn Sie schauen, werden Sie wahrscheinlich auf viele verschiedene Ansätze stoßen. Vielleicht können einige andere es ein bisschen mehr ausarbeiten.

Jason R

@ Michael Litvin, es gibt eine Klasse nichtlinearer Filter (die in der 'Energiedetektion' unter dem Namen 'Teager-Kaiser' verwendet werden. Ich denke, es ist eine Teilmenge der sogenannten 'Voltera-Kerne'. Entschuldigung, ich kann keine bereitstellen Weitere Informationen, aber wenn Sie nach diesen Wörtern suchen, finden Sie möglicherweise das, wonach Sie suchen. Ich weiß, dass die Teager-Kaiser-Methode verwendet wird, um Walgeräusche zu erzeugen, wenn nur Hintergrundgeräusche auftreten.

Spacey

Antworten:

Es gibt eine Reihe von Parametern, die Sie sich ansehen können:

Gesamtenergie
Kurzzeitspektrum: Sprache hat ein ziemlich charakteristisches "rosa-ähnliches" Spektrum, und Rauschen (das während der nicht sprachlichen Teile auftritt) ist in der Regel weiß, wenn es elektrisch dominiert wird, oder "rot" (dh niederfrequent schwer), wenn es sich um einen akustischen Hintergrund handelt Lärm oder Mikrofonrauschen
Amplitudenstatistik. Die meisten Rauschsignale haben eine Gaußsche Verteilung, die Sprache ist näher an einer Laplace-Verteilung

Ich denke, eine Kombination dieser drei sollte ein ziemlich robustes Erkennungsschema ergeben.

Hilmar
quelle