Die Sprach-API von Google bietet Audio-Sprach-Text-Funktionen in mehreren Sprachen. Es unterstützt auch Türkisch. Diese Sprache ist sehr interessant, sie wird als agglutinativ bezeichnet : Sie kleben Wortteile nacheinander anstelle von Präpositionen und anderen Teilen in Sprachen wie Englisch. Dies führt zu einem nahezu unbegrenzten Wortschatz.
Wissen Sie, wie Google die türkische Spracherkennung für die API implementiert hat? Ich kann nicht glauben, dass sie die gleichen Techniken wie auf Englisch angewendet haben.
AKTUALISIEREN
Hier ist ein Beispielprotokoll, das die Google API aus dem folgenden Clip auf YouTube zurückgegeben hat:
Sie müssten ihn fragen, ich habe keine Ahnung Yahoo-Antworten Ich war Adam Scott wirklich in Jumanji in der Truman-Show Ich habe ihn in iTunes nachgeschlagen, es stand unter Filmen, in denen sie ist, war Jumanji und die Truman-Show Ich weiß nicht * * * * Ich glaube, es wird zuhören. Ich bin nicht in einem dieser Filme, also solltest du es wirklich nicht tun.
Ich denke, es ist eine ausgezeichnete Qualität der Transkription. Ich habe meine wunderschönen AudioEngine-Monitore benutzt und ein beschissenes 20 Jahre altes LabTec-Computermikrofon davor gestellt. Ein wahres Amateur-Setup, aber so werden diese Dinge in der Praxis eingesetzt, dh in einer weniger als idealen Situation.
Hier ein Beispiel aus einer türkischen Filmszene :
merhaba Temmuz Ben hoş geldin kardeş e nasılsınız keyifler iyidir inşallah İyi valla koşturuyoruz nasıl olsun Hem kardeş lafı uzatmadan konuya girsek anlattı bana ikinci el işçiliği
Dieser ist grundsätzlich unverständlich. Es nimmt hier und da einige Wörter auf, aber es ist schwierig, sie zu verbinden, anders als im englischen Beispiel.
Bedeutet dies, dass Google keine benutzerdefinierte Lösung für Türkisch verwendet? Vielleicht möchten sie ihre englischsprachigen Engines für Türkisch verwenden?
Nur zum Spaß habe ich einen Clip von einem aserbaidschanischen Sprecher gesendet . Seine Rede ist klar ausgesprochen, aber die API hat kaum ein paar Worte. Ich habe die türkische Einstellung verwendet, es ist also nicht fair, aber die Sprachen sind ähnlich:
o akşam Çağlayan Doruk sevgilin kim bu kim baktı Bülent Serttaş çok pis
quelle
Antworten:
Was in der Produktion verwendet wird, wird oft nicht bekannt gegeben. Mir ist nicht bekannt, dass Google bekannt gibt, wie das derzeitige automatisierte Spracherkennungssystem (ASR), das in der Produktion verwendet wird, funktioniert. Eine Möglichkeit zur Annäherung wäre das Scannen von ICASSP / Interspeech / etc. Verfahren für Google-Veröffentlichungen.
Abgesehen von Google: Die Frage kann verallgemeinert werden als " Wie wird ASR in Sprachen mit großen oder offenen Wörterbüchern durchgeführt? ".
Eine Möglichkeit besteht darin, die Modellierung von Unterwortsprachen zu verwenden , z. B. aus {1}:
oder von {2}:
Verweise:
quelle