Spracherkennungs-App, um MP3 in Text umzuwandeln?

27

Kennt jemand eine Anwendung, die Audio in Text konvertieren kann? Ich laufe Ubuntu 12.04 LTS.

software-recommendation speech-recognition Kopano
quelle

Ich nehme an, es ist gesprochener Text. In welcher Sprache ist dieser Text?

Martin Ueding

Der Sprachtext ist in einfachem Englisch.

Kopano

21

Die Software, die Sie verwenden können, ist CMUSphinx . Anders als in einer anderen Antwort vorgeschlagen, ist Julius nicht geeignet, da er Modelle benötigt. Modelle für die Spracherkennung mit großem Wortschatz sind für Julius nicht verfügbar.

Mit pocketsphinx können Sie Audiodateien konvertieren. Diese beiden Befehle müssen die Arbeit erledigen. Zuerst konvertieren Sie die Datei in das gewünschte Format und erkennen es dann:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Die Run Pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Ergebnis wird in result.txt gespeichert.

Nikolay Shmyrev
quelle

Als Ergänzung zu dieser Antwort gibt es hier eine coole Demo von beiden speech recognitionund voice commandTools: youtube.com/…

Daithí

Wie fügt man dem System ein akustisches Modell hinzu?

jarno

Laden Sie es einfach herunter und entpacken Sie es. Es gibt kein "Hinzufügen zum System"

Nikolay Shmyrev

@NikolayShmyrev Wo soll ich es auspacken, damit pocketsphinx_continuous es findet?

jarno

4

Nun, ich habe die Pakete pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj und pocketsphinx-lm-en-hub4 im Universums-Repository von Ubuntu 14.04 installiert. Dann hat pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.loggearbeitet. Vielleicht sind sie keine optimalen Pakete, aber sie waren die besten Übereinstimmungen, die ich in den Repositories finden konnte.

jarno

12

Ich weiß, dass dies alt ist, aber um die Antwort von Nikolay zu erweitern und hoffentlich in Zukunft jemandem Zeit zu sparen, müssen Sie eine aktuelle Version von pocketsphinx aus dem Github- oder Sourceforge-Repository kompilieren (nicht sicher) was aktueller gehalten wird). Beachten Sie, dass -j8 bedeutet, dass nach Möglichkeit 8 separate Jobs gleichzeitig ausgeführt werden. Wenn Sie mehr CPU-Kerne haben, können Sie die Anzahl erhöhen.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Dann laden Sie unter https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ die neuesten Versionen von cmusphinx-en-us-....tar.gzund herunteren-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Dann können Sie endlich mit den Schritten aus Nikolays Antwort fortfahren:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funktioniert gut. Ich würde mich nicht darauf verlassen, dass eine lesbare Version des Textes erstellt wird, aber es ist gut genug, dass Sie danach suchen können, wenn Sie nach einem bestimmten Zitat suchen. Das funktioniert besonders gut, wenn Sie einen Suchalgorithmus wie Xapian ( http://www.lesbonscomptes.com/recoll/ ) verwenden, der Platzhalter akzeptiert und keine genauen Suchausdrücke erfordert.

Hoffe das hilft.

Jonathan Perry-Houts
quelle

4

Alles funktioniert wie ein Zauber, aber in meinem Fall musste ich den folgenden Befehl ausführen, um

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

Vijay Dohare

Dies wird auch unter cmusphinx.github.io/wiki/tutorialpocketsphinx/…

andrybak

11

Wenn Sie Sprache in Text umwandeln möchten, können Sie versuchen, Ihr Ubuntu Software Center zu öffnen und nach Julius zu suchen

Beschreibung

"Julius" ist eine leistungsstarke LVCSR-Decodersoftware (Large Vocabulary Continuous Speech Recognition) mit zwei Durchgängen für sprachbezogene Forscher und Entwickler.

Eine andere Option, die nicht im Software Center enthalten ist, ist Simon

... ist ein Open-Source-Spracherkennungsprogramm und ersetzt Maus und Tastatur.

Referenz-Links

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
quelle

1

Sie können mit speechpad.pw Transkription Panel

Sehen Sie sich das Video zur Verwendung der Transkription an

alexei
quelle

Das sieht cool aus, obwohl ich nicht denke, dass es die Frage beantwortet, welche eine Transkription einer vorhandenen Datei erhalten sollte. Davon abgesehen habe ich gerade Sphinx ausprobiert und es ist kläglich gescheitert ... die Transkription war zu 99,9% falsch.

Alexis Wilke

Spracherkennungs-App, um MP3 in Text umzuwandeln?

Antworten: