Türkische Spracherkennung (Sprache-> Text) in der Google Speech API? [geschlossen]

7

Die Sprach-API von Google bietet Audio-Sprach-Text-Funktionen in mehreren Sprachen. Es unterstützt auch Türkisch. Diese Sprache ist sehr interessant, sie wird als agglutinativ bezeichnet : Sie kleben Wortteile nacheinander anstelle von Präpositionen und anderen Teilen in Sprachen wie Englisch. Dies führt zu einem nahezu unbegrenzten Wortschatz.

Wissen Sie, wie Google die türkische Spracherkennung für die API implementiert hat? Ich kann nicht glauben, dass sie die gleichen Techniken wie auf Englisch angewendet haben.

AKTUALISIEREN

Hier ist ein Beispielprotokoll, das die Google API aus dem folgenden Clip auf YouTube zurückgegeben hat:

Sie müssten ihn fragen, ich habe keine Ahnung Yahoo-Antworten Ich war Adam Scott wirklich in Jumanji in der Truman-Show Ich habe ihn in iTunes nachgeschlagen, es stand unter Filmen, in denen sie ist, war Jumanji und die Truman-Show Ich weiß nicht * * * * Ich glaube, es wird zuhören. Ich bin nicht in einem dieser Filme, also solltest du es wirklich nicht tun.

Ich denke, es ist eine ausgezeichnete Qualität der Transkription. Ich habe meine wunderschönen AudioEngine-Monitore benutzt und ein beschissenes 20 Jahre altes LabTec-Computermikrofon davor gestellt. Ein wahres Amateur-Setup, aber so werden diese Dinge in der Praxis eingesetzt, dh in einer weniger als idealen Situation.

Hier ein Beispiel aus einer türkischen Filmszene :

merhaba Temmuz Ben hoş geldin kardeş e nasılsınız keyifler iyidir inşallah İyi valla koşturuyoruz nasıl olsun Hem kardeş lafı uzatmadan konuya girsek anlattı bana ikinci el işçiliği

Dieser ist grundsätzlich unverständlich. Es nimmt hier und da einige Wörter auf, aber es ist schwierig, sie zu verbinden, anders als im englischen Beispiel.

Bedeutet dies, dass Google keine benutzerdefinierte Lösung für Türkisch verwendet? Vielleicht möchten sie ihre englischsprachigen Engines für Türkisch verwenden?

Nur zum Spaß habe ich einen Clip von einem aserbaidschanischen Sprecher gesendet . Seine Rede ist klar ausgesprochen, aber die API hat kaum ein paar Worte. Ich habe die türkische Einstellung verwendet, es ist also nicht fair, aber die Sprachen sind ähnlich:

o akşam Çağlayan Doruk sevgilin kim bu kim baktı Bülent Serttaş çok pis

Aksakal
quelle
2
Eine Google Scholar-Suche Scholar.google.com/… enthüllt nicht viel, was speziell auf die Besonderheiten des Türkischen eingeht , aber in der Suche stecken eine Reihe von Artikeln über sprachunabhängige Spracherkennung durch maschinelles Lernen. Es erscheint plausibel, dass Google eine Technik zum agnostischen Extrahieren von Phonemen mit einer Methode zum Transkribieren derselben in eine bestimmte Sprache kombiniert hat.
Sycorax sagt Reinstate Monica
2
Linguistics.SE kann hier hilfreicher sein, insbesondere das Spracherkennungs-Tag .
Stephan Kolassa
3
(+1) Auch hier gibt es eine potenziell interessante soziologische Frage, da türkische Ingenieure / Forscher nach meiner anekdotischen Erfahrung in vielen der führenden Spracherkennungsteams für maschinelles Lernen in der Industrie ziemlich überrepräsentiert sind.
Kardinal
1
Wenn Sie die
Wortfehlerrate

Antworten:

3

Was in der Produktion verwendet wird, wird oft nicht bekannt gegeben. Mir ist nicht bekannt, dass Google bekannt gibt, wie das derzeitige automatisierte Spracherkennungssystem (ASR), das in der Produktion verwendet wird, funktioniert. Eine Möglichkeit zur Annäherung wäre das Scannen von ICASSP / Interspeech / etc. Verfahren für Google-Veröffentlichungen.

Abgesehen von Google: Die Frage kann verallgemeinert werden als " Wie wird ASR in Sprachen mit großen oder offenen Wörterbüchern durchgeführt? ".

Eine Möglichkeit besteht darin, die Modellierung von Unterwortsprachen zu verwenden , z. B. aus {1}:

Zusammenfassung: In dieser Studie werden einige Lösungen für das Wortproblem außerhalb des Wortschatzes (OOV) von automatischen Spracherkennungssystemen (ASR) untersucht, die für agglutinative Sprachen wie Türkisch entwickelt wurden, und eine Verbesserung dieses Problems wird vorgeschlagen. Es wurde gezeigt, dass die Verwendung von Unterwort-Sprachmodellen wortbasierte Modelle übertrifft, indem das OOV-Wortverhältnis in Sprachen mit komplexer Morphologie verringert wird.

oder von {2}:

Abstract: Türkische Spracherkennungsstudien wurden kürzlich beschleunigt. Mit diesen Bemühungen hat nicht nur der verfügbare Sprach- und Textkorpus, der in Erkennungsexperimenten verwendet werden kann, sondern auch neue Methoden zur Verbesserung der Genauigkeit vorgeschlagen. Agglutinativer Charakter des Türkischen verursacht Probleme mit dem Wortschatz (OOV) bei LVCSR-Aufgaben (Large Vocabulary Continuous Speech Recognition). Um das OOV-Problem zu überwinden, wurde die Verwendung von Unterworteinheiten vorgeschlagen. Zusätzlich zu LVCSR-Experimenten wurden einige Anstrengungen unternommen, um einen Spracherkenner in begrenzten Bereichen wie der Radiologie zu implementieren. In diesem Artikel werden wir türkische Spracherkennungssoftware vorstellen, die unter Verwendung aktueller Studien entwickelt wurde. Sowohl die Schnittstelle der Software als auch die Erkennungsgenauigkeiten in zwei verschiedenen Testsätzen werden zusammengefasst. Die Leistung von Software wurde mithilfe von Radiologie und großen Vokabeltestsätzen bewertet. Um das OOV-Problem praktisch zu lösen, schlagen wir vor, Sprachmodelle mit häufigen Wörtern oder Sätzen anzupassen. In Erkennungsexperimenten wurden 90% und 44% Wortgenauigkeiten in der Radiologie bzw. in großen Vokabeltestsätzen erreicht.


Verweise:

Franck Dernoncourt
quelle
das ist interessant, danke, wird sich die Referenzen
ansehen