Warum erfordern Mainstream-Sprachmodelle keinen personalisierten Trainingsschritt mehr?

In der Windows XP-Ära musste ich beim Einrichten der in Windows OS integrierten Sprache / des Diktats eine Reihe programmierter Textbeispiele an die Sprach-Text-Engine senden, um mein Sprachprofil zu personalisieren.

Heute kann ich mit vernetzten Sprach-Text-Engines wie Siri oder Cortana einfach anfangen zu diktieren.

Die Qualität der Text-zu-Sprache-Konvertierung scheint gleichwertig zu sein, obwohl mein Gedächtnis in diesem Aspekt möglicherweise fehlerhaft ist.

Haben Sprachmodelle die Notwendigkeit einer Personalisierung der Trainingsdaten überwunden? Oder führen sie die Personalisierung jetzt nur unter der Decke durch, ohne einen expliziten Schulungsassistenten? Oder tun sie Training nicht tun, obwohl es wäre immer noch von Vorteil sein (zB weil es unbequem)?

algorithms machine-learning speech-recognition Tsutsu
quelle

Haben Sprachmodelle die Notwendigkeit einer Personalisierung der Trainingsdaten überwunden?

Es gab zwei Aspekte, die die Genauigkeit signifikant verbesserten:

Deep Learning und neuronale Netze verbesserten die Genauigkeit erheblich.
Die Menge an Schulungsdaten, die große Unternehmen verwenden, ist im Laufe der Jahre um eine Größenordnung gewachsen. Unternehmen sammelten so viele Daten, dass der Anpassungseffekt abnahm.

Oder führen sie die Personalisierung jetzt nur unter der Decke durch, ohne einen expliziten Schulungsassistenten?

Normalerweise findet eine kleine Anpassung statt, die jedoch nur eine sehr geringe Wirkung hat. Es stimmt Ihre Stimme im Grunde mit einigen Grundstimmen ab und erzeugt einen Vektor von Ähnlichkeiten. Dieser Vektor wird dann in Echtzeit verwendet und passt die Eingabe des neuronalen Netzwerks an (sogenannte i-Vektor-Anpassung). Diese Art der Anpassung ist ziemlich schnell, Sie können sich von 2-3 Sekunden Sprache anpassen. Für technische Details können Sie lesen

https://www.microsoft.com/en-us/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf

Oder trainieren sie nicht, obwohl es immer noch von Vorteil wäre (z. B. weil es unpraktisch ist)?

Es gibt einige Fälle, in denen eine Anpassung von Vorteil wäre, aber auch hier gibt es mehrere Aspekte:

Es funktioniert gut ohne Anpassung.
Die Erkennung neuronaler Netze passt eigentlich nicht gut zur Anpassung. Sie benötigen viele, viele GPU-Knoten, um ein großes neuronales Netzwerk zu trainieren. Es ist sehr schwierig, es anschließend anzupassen. Sie können eine kleine Ebene mit Anpassungsdaten anpassen, aber der Effekt ist normalerweise gering, nur weil das neuronale Netzwerk ziemlich eng miteinander verbunden ist und Sie nicht einfach ein wenig ändern können, ohne umzuschulen.
Wie ich oben sagte, ist die Menge an Trainingsdaten so groß, dass Ihre benutzerdefinierten Daten wahrscheinlich bereits im Trainingssatz enthalten sind und eine Anpassung nicht viel hilft
Anpassung kann auch schaden. Stellen Sie sich vor, Ihre Rede hatte einen ungewöhnlichen Knall oder Piepton vom Hintergrund oder etwas wie Musik und System, das daran angepasst war. Dann wird Ihre normale saubere Sprache tatsächlich mit weniger Genauigkeit als bei einem nicht angepassten System dekodiert.
Die Anpassung ist für Benutzer nicht sehr bequem. Warum müssen Sie sich anpassen, wenn Sie das System einfach verwenden können?

Also ging das Systemdesign zu "es funktioniert einfach" und es ist eine gute Richtung.

Nikolay Shmyrev
quelle

Warum erfordern Mainstream-Sprachmodelle keinen personalisierten Trainingsschritt mehr?

Antworten: