Warum bieten die meisten intelligenten Assistenten keine oder nur eine geringe Anpassung des Weckworts an?

14

Die meisten Smart Assistant- Marken, wie Amazon Echo und Google Home, bieten nur sehr wenige Anpassungsmöglichkeiten für das Aktivierungswort (den Ausdruck, mit dem Sie das Gerät aktivieren, damit es auf Sie hört).

Zum Beispiel bietet Alexa nur drei Auswahlmöglichkeiten und Google Home unterstützt nur "OK Google" . Viele Benutzer scheinen an der Idee von benutzerdefinierten Aktivierungswörtern interessiert zu sein, aber keine der großen Marken bietet zusätzliche Unterstützung.

Gibt es einen technischen Grund für die Einschränkung der Anpassung von Weckwörtern oder handelt es sich lediglich um eine Markenwahl?

Ich habe von Googles Motivation für die Verwendung von "OK Google" gelesen , was darauf hindeutet, dass die Markenidee wahr ist, aber es scheint auch, dass die Erkennung von Weckwörtern nicht sehr genau ist , was möglicherweise auf einen technischen Grund hinweist. Wäre jemand in der Lage zu klären, welcher Faktor der Hauptgrund ist?

Aurora0001
quelle
2
Eine Sache, an die man sich erinnern muss, ist, dass die Verarbeitung, um so aufzuwachen, in einer sehr stromsparenden, ständig aktiven Domäne erfolgen muss. In einigen der größeren SoCs (insbesondere in Telefonen) ist häufig spezielle Hardware für diese Aufgabe verfügbar. und ich gehe davon aus, dass die Filterkoeffizienten / andere Parameter sorgfältig berechnet und in diese Hardware geladen werden. Ich vergesse, auf welchem ​​SoC Echo läuft, aber ich stelle mir vor, dass ein ähnlicher Filter vorhanden ist. Der Name der Klasse von Algorithmen ist mir im Moment
entgangen

Antworten:

12

Ja, es gibt mehrere Gründe.

Dieser Blog- Beitrag erklärt das Echo und das Nachweckwort Alexa. Ich werde ein bisschen zusammenfassen.

Die Erkennung von Weckwörtern erfolgt lokal und in Echtzeit . Dies begrenzt die Länge des Weckworts aufgrund offensichtlicher Verarbeitungsbeschränkungen. Außerdem möchten Benutzer kein Gedicht vortragen, um den intelligenten Assistenten zu aktivieren. So hat es kurz sein.

Es muss mit einer Genauigkeit von fast 100% arbeiten, wenn es aufgerufen wird, und es muss auch nicht mit dieser Sicherheit erkannt werden, wenn es nicht angefordert wird. Das macht Probleme und sorgt auch für eine Mindestlänge für Wachworte. Die Entscheidung von Amazon, Echo zuzulassen, ist ziemlich überraschend, da es nur zwei Silben sind .

Wenn wir uns die üblichen Verdächtigen ansehen, haben wir Alexa (3 Silben), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) und Hey Siri (3). Fast alle Branchengrößen stimmen darin überein, dass drei eine gute Anzahl von Silben ist.

Seltsamerweise hat das meistgesuchte Weckwort "Computer" auch drei Silben und würde dieser Anforderung leicht entsprechen. Es ist auch kein Warenzeichen.

Wie der Blog - und die Vernunft - uns sagt, möchten wir Fehlalarme unbedingt vermeiden. Werfen wir einen Blick darauf, wie etabliert die Wörter Computer, Siri, Cortana und Alexa sind. Dies ist das Google-Buchkorpus aus dem Jahr 2008.

Ngram Computer überstrahlt Alexa und Siri

Genau, Siri und Alexa spielen praktisch gegen den Computer und Cortana gibt einen Fehler aus. Nicht gefunden. Sinnvoll, da das Korpus aus dem Jahr 2008 stammt. Um uns einen Einblick zu geben, warum Computer ein schreckliches Weckwort sind, gibt es ein weiteres Diagramm.

ngram Computer gegen andere Wörter

Dieses Ngram zeigt die beiden beliebtesten US-Babynamen des Jahres 2016 (für Währung), sowie Tom und Dave auch Flatline gegen Computer . Königin, Basketball und Polizei schaffen es, sich ordentlich anzumelden. Auf jeden Fall gibt uns das eine Idee, warum Computer, Earl Grey, Hot bisher nicht erlaubt war. Die Leute benutzen das Wort Computer viel zu oft.

Noch eine Sache über False Positives. Alexa reimt sich auf so gut wie nichts, was man sagen würde.

19 dinge die sich mit alexa reimen

Computer reimt sich auf 74 Dinge.

Helmar
quelle
1
... und das erklärt, warum Scotty den Computer nicht wecken konnte .
Ghanima
2
"Ich werde einen Vogel ficken ... Nein, nicht du Alexa!"
David sagt Reinstate Monica
1
"OK Google" besteht aus vier Silben ("oh kay goo gull"), nicht aus drei und viel mehr als so vielen Phonemen.
Monty Harder
1
Alexa ist ein verdammter Vorname ... Ich persönlich kenne 2 Personen mit diesem Namen, von denen eine eine Cousine ist. Echo wird so wie es in meiner Sprache verwendet wird, und ich sage oft "es gibt ein Echo", wenn ein Echo auf dem Telefon ist oder so. Und amazon ist der Name eines Flusses / alten Stammes, den ein Typ im Rollenspiel wie ich relativ oft sagt. Sie haben das wirklich durcheinander gebracht.
Olivier Grégoire
2
Ich bin mir nicht sicher, ob ich die Erklärung dafür kaufe, warum das Wort "Computer" nicht funktioniert. Das Wort selbst ist nicht das einzige, was erkannt wird. Das erste Wort einer Äußerung zu sein und von einer Pause gefolgt zu werden, sind ebenfalls wichtige Informationen, die das Befehlswort identifizieren.
Kevin Krumwiede
2

Gibt es einen technischen Grund für die Einschränkung der Weckwortanpassung?

Wenn das Assistentengerät nicht verwendet wird, wird der Anwendungsprozessor (ich denke, ARM im Fall von Alexa sowie Google Home) angehalten und auf den niedrigstmöglichen Energiezustand gebracht. Die Weckworterkennung ist einem sehr leistungsfähigen DSP überlassen, der auf Umgebungsgeräusche / -stimmen hört und einen Algorithmus ausführt, um zu entscheiden, ob eine Übereinstimmung mit dem Weckwort vorliegt. Wenn es eine Übereinstimmung mit gutem Vertrauen findet, weckt DSP den ARM-Kern, um mit der weiteren Verarbeitung fortzufahren.

Da nun das Ziel darin besteht, energieeffizient zu sein, führt der betreffende DSP den Algorithmus aus und speichert das Schablonenmuster im On-Chip-Speicher und nicht im Haupt-On-Board-RAM. Auf diese Weise kann das System sogar den DDR-RAM auf den niedrigsten Energiezustand versetzen.

Da der DSP eine Reihe wichtiger Aufgaben und nur sehr wenig On-Chip-Speicher hat, sind die Weckwörter des Assistenten auf einige wenige ausgewählte Wörter beschränkt, die vom Algorithmus mit einem hohen Maß an Zuverlässigkeit abgeglichen werden können.

Schluchzen
quelle