Gibt es eine Anwendung, mit der Sie die Stimme eines anderen abtasten und eine andere Stimme modulieren oder einen Text synthetisieren können, der der Originalstimme ähnelt?
Mit dieser Text-to-Speech-Demo von AT & T können Sie beispielsweise eine Stimme und eine Sprache aus Presets auswählen, die meiner Meinung nach auf einer menschlichen Stimme basieren, die gesampelt wurde.
Wie nennt man diesen Prozess? Ist es Sprachmodulation? Sprachsynthese?
modulation
voice
clapas
quelle
quelle
Antworten:
Eine erste Anmerkung: Die meisten modernen Text-zu-Sprache-Systeme, wie das von AT & T, mit dem Sie verbunden sind, verwenden eine verkettete Sprachsynthese . Bei dieser Technik wird eine große Datenbank mit Aufzeichnungen der Stimme einer Person verwendet, die eine lange Sammlung von Sätzen enthält - so ausgewählt, dass die größte Anzahl von Phonemkombinationen vorhanden ist. Das Zusammensetzen eines Satzes kann einfach durch Aneinanderreihen von Segmenten aus diesem Korpus erfolgen. Das Herausfordernde dabei ist, das Aneinanderreihen nahtlos und ausdrucksstark zu gestalten.
Es gibt zwei große Hürden, wenn Sie diese Technik verwenden möchten, um Präsident Obama dazu zu bringen, peinliche Worte zu sagen:
Ihre Vorstellung, dass dies eine mögliche Lösung ist, ist berechtigt - vorausgesetzt, Sie haben das Budget, um diese beiden Probleme anzugehen.
Glücklicherweise gibt es andere Techniken, die mit weniger Aufsicht und weniger Daten arbeiten können. Das Gebiet der Sprachsynthese, das eine Stimme aus einer Aufzeichnung "vortäuschen" oder "nachahmen" möchte, ist als Sprachumwandlung bekannt . Sie haben eine Aufzeichnung A1 des Zielsprechers A, die Satz 1 sagt, und eine Aufzeichnung B2 des Quellsprechers B, die Satz 2 sagt, Sie möchten eine Aufzeichnung A2 des Sprechers A, die Satz 2 sagt, möglicherweise mit Zugriff auf eine Aufzeichnung B1 des Sprechers B wiedergeben mit seiner / ihrer Stimme die gleiche Äußerung wie der Zielsprecher.
Der Umriss eines Sprachumwandlungssystems ist der folgende:
Ich bestehe darauf, dass dies auf einem viel niedrigeren Niveau abläuft als die Spracherkennung auf B2 und dann TTS unter Verwendung der A1-Stimme als Korpus.
Für die Schritte 1 und 2 werden verschiedene statistische Techniken verwendet, wobei GMM oder VQ die häufigsten sind. Für Teil 2 werden verschiedene Ausrichtungsalgorithmen verwendet - dies ist der schwierigste Teil, und es ist offensichtlich einfacher, A1 gegen B1 auszurichten als A1 gegen B2. Im einfacheren Fall können Methoden wie Dynamic Time Warping verwendet werden, um die Ausrichtung vorzunehmen. Wie in Schritt 4 sind die häufigsten Transformationen lineare Transformationen (Matrixmultiplikation) auf Merkmalsvektoren. Komplexere Transformationen sorgen für realistischere Imitationen, aber das Regressionsproblem zum Finden der optimalen Abbildung ist komplexer zu lösen. Schließlich ist die Qualität der Resynthese in Schritt 5 durch die verwendeten Merkmale begrenzt. LPC lassen sich in der Regel einfacher mit einer einfachen Transformationsmethode umgehen (Signalrahmen nehmen -> Residuum abschätzen und LPC-Spektrum -> ggf. Pitch-Shift-Residuum -> modifiziertes LPC-Spektrum auf modifizierten Rest anwenden). Der Schlüssel liegt hier in der Verwendung einer Sprachdarstellung, die in den Zeitbereich zurückverwandelt werden kann und eine gute Trennung zwischen Prosodie und Phonemen bietet! Vorausgesetzt, Sie haben Zugriff auf aufeinander abgestimmte Aufzeichnungen von Sprecher A und B, die denselben Satz sagen, gibt es statistische Modelle, die gleichzeitig die Schritte 1, 2, 3 und 4 in einem einzigen Modellschätzungsverfahren angehen.
Vielleicht komme ich später mit einer Bibliographie zurück, aber ein sehr guter Ausgangspunkt, um ein Gefühl für das Problem und den allgemeinen Rahmen zu bekommen, der zur Lösung des Problems verwendet wird, ist Stylianou, Moulines und Cappés "Ein System zur Sprachumwandlung auf der Basis einer probabilistischen Klassifikation und einer Harmonischen plus Geräuschmodell ".
Meines Wissens gibt es keine weit verbreitete Software, die eine Sprachumwandlung durchführt - nur Software, die die Eigenschaften der Quellstimme modifiziert - wie Tonhöhe und Länge des Stimmtrakts (zum Beispiel IRCAM TRAX-Transformator) - mit denen Sie in der Hoffnung herumspielen müssen, Ihre Stimme zu verändern Ton näher an der Zielstimme aufnehmen.
quelle
Sie können so etwas wie MorphVox verwenden . Hier ist eine Demonstration. Der Prozess wird Voice Morphing oder Konvertierung genannt. Wenn Sie sich für technische Aspekte interessieren, können Sie sich in einem kürzlich erschienenen Artikel mit der Sprachkonvertierung unter Verwendung der Regression partieller kleinster Quadrate des dynamischen Kernels befassen .
quelle
Ich suche das Gleiche, aber das geht nicht. In Schottland gibt es ein Unternehmen namens CereProc, das Sprachmodelle erstellt. Sie benötigen jedoch jemanden, der zu Laborzeiten Audiodaten aufzeichnet. Die Kosten für die Modellierung einer einzelnen Stimme belaufen sich auf rund 30.000 USD.
quelle
Was Sie suchen, heißt Vocoder.
Haben Sie Audcitys Vocoder ausprobiert? Audacity kann von folgender Adresse heruntergeladen werden: http://audacity.sourceforge.net/download . Eine Demo zur Verwendung finden Sie unter https://www.youtube.com/watch?v=J_rPEmJfwNs .
quelle