Ich möchte eine Android-App entwickeln. Als Teil der Funktionalität würde die App erfordern, 3-5 Sekunden Audio zufällig abzutasten und es als menschlich sprechend zu klassifizieren oder nicht. Ich verstehe, dass dieses Konzept als Sprachaktivitätserkennung bezeichnet wird.
Was wäre der beste Weg, um dies auf einem Mobiltelefon zu implementieren. Ich habe ein Basissystem mit energiebasierten Funktionen und Schwellenwerten entwickelt. Ich hoffe, etwas zu finden, das weniger anfällig für Rauschen ist, wahrscheinlich mithilfe von Funktionen wie MFCC oder Formanten? Ich habe eine Reihe von Papieren durchgesehen, aber für die meisten musste ich Daten sammeln und Modelle trainieren. Gibt es eine Bibliothek oder ein Framework, das ich verwenden könnte und das in Echtzeit funktioniert?