Woran erkennt Siri, dass ich "Hey Siri" sage?

8

Ich versuche zu verstehen , wie mein iPhone kann für mich immer wieder hören zu sagen Hey Siri, Alexa, Hey Cortanaoder Okay Googleohne meine Batterie schnell Entleerung nach unten.

Ich stellte mir zwei Arten von Algorithmen vor. Eine, die Zeitscheiben wie 10 ms breite Scheiben alle 200 ms aufzeichnet und eine synchrone Erkennung auf bestimmten Frequenzen durchführt. Diese Parameter hängen jedoch stark von der Charakteristik meiner Stimme ab. Darüber hinaus wird es immer noch viel CPU-Leistung verbrauchen, um ständig zu versuchen, eine Hey Sirimitten im Nirgendwo zu finden.

Welche Art von effizientem Algorithmus / Implementierung mit geringem Stromverbrauch (Hardware oder Software) kann eine solche Aufgabe ausführen?

Dies hängt irgendwie mit diesem Patent zusammen, denke ich: https://www.google.com/patents/US20160253997

Ich habe einige Artikel gelesen, die sich mit versteckten Markov-Modellen befassen, aber ich bezweifle, dass es sich um einen Ansatz mit sehr geringem Stromverbrauch handelt.

sound speech-recognition voice nowox
quelle

6

"Ok Google" wird in vielen Veröffentlichungen von Google beschrieben

Automatische Verstärkungsregelung und Multi-Style-Training für robustes Keyword-Spotting mit geringem Platzbedarf und tiefen neuronalen Netzen

Faltungs-Neuronale Netze für das Erkennen von Keywords mit geringem Platzbedarf

Es basiert auf DNN, das speziell für die Schlüsselphrase trainiert wurde, und läuft sehr schnell. Es verbraucht selbst auf Mobilgeräten nicht viel Strom.

Alexa Spotting wird von denselben Leuten implementiert und ist wie Snowboy verfügbar

UPDATE: Apple - beschreibt die Umsetzung hier .

Nikolay Shmyrev
quelle

1

Um die Antwort auf @ hotpaw2 näher zu erläutern, läuft "Hey Siri" auf dem M9-Coprozessor- Chip mit geringem Stromverbrauch , der auch Schritte wie die Überwachung von Schritten usw. für die Health-App ausführt. Dementsprechend muss bei älteren Geräten ohne M9-Chip Ihr iDevice angeschlossen sein, damit "Hey Siri" funktioniert.

Ich denke, die Hardware-Implementierung mit geringem Stromverbrauch ist der Schlüssel (und nicht nur das hardwareunabhängige algorithmische Genie).

Verweise:

ruoho ruotsi
quelle

0

Nur ein paar wilde Vermutungen:

Spezielle Hardware (zusätzlicher "M" -Chip oder SOC-Logikblock mit eigener isolierter Leistungsdomäne), die mit Taktraten oder Arbeitszyklen der Audioverarbeitung auf winzigen Datenpuffern ausgeführt wird, verbraucht erheblich weniger Strom als GHz-fähige CPUs mit großen Speicherhierarchien. Die Haupt-CPU muss nur aufwachen, wenn eine anfängliche wahrscheinliche ID hoch genug ist, sodass der anfängliche Erkennungsalgorithmus nicht gut, sondern nur gut genug sein muss. Überlegen Sie auch, wie klein der Akku eines In-Ear-Bluetooth-Headsets im Vergleich zu einem Smartphone mit derselben Akkulaufzeit ist. Durch die einfache Audioverarbeitung werden relativ große Mobiltelefonbatterien nicht schnell entladen.

hotpaw2
quelle

Woran erkennt Siri, dass ich "Hey Siri" sage?

Antworten: