Mein Problem ist, dass ich die Energie des Hintergrundrauschens nicht kenne, also kann ich die Energie nicht einfach schwellen. Die Verarbeitung erfolgt in Echtzeit und ich habe ungefähr 500 ms Zeit, um mich zu entscheiden. Idealerweise möchte ich ruhige Konsonanten, die als nicht still gelten.
audio
speech-recognition
Michael Litvin
quelle
quelle
Antworten:
Es gibt eine Reihe von Parametern, die Sie sich ansehen können:
Ich denke, eine Kombination dieser drei sollte ein ziemlich robustes Erkennungsschema ergeben.
quelle