Ich nehme an, es ist gesprochener Text. In welcher Sprache ist dieser Text?
Martin Ueding
Der Sprachtext ist in einfachem Englisch.
Kopano
Antworten:
21
Die Software, die Sie verwenden können, ist CMUSphinx . Anders als in einer anderen Antwort vorgeschlagen, ist Julius nicht geeignet, da er Modelle benötigt. Modelle für die Spracherkennung mit großem Wortschatz sind für Julius nicht verfügbar.
Mit pocketsphinx können Sie Audiodateien konvertieren. Diese beiden Befehle müssen die Arbeit erledigen. Zuerst konvertieren Sie die Datei in das gewünschte Format und erkennen es dann:
Als Ergänzung zu dieser Antwort gibt es hier eine coole Demo von beiden speech recognitionund voice commandTools: youtube.com/…
Daithí
Wie fügt man dem System ein akustisches Modell hinzu?
jarno
Laden Sie es einfach herunter und entpacken Sie es. Es gibt kein "Hinzufügen zum System"
Nikolay Shmyrev
@NikolayShmyrev Wo soll ich es auspacken, damit pocketsphinx_continuous es findet?
jarno
4
Nun, ich habe die Pakete pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj und pocketsphinx-lm-en-hub4 im Universums-Repository von Ubuntu 14.04 installiert. Dann hat pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.loggearbeitet. Vielleicht sind sie keine optimalen Pakete, aber sie waren die besten Übereinstimmungen, die ich in den Repositories finden konnte.
jarno
12
Ich weiß, dass dies alt ist, aber um die Antwort von Nikolay zu erweitern und hoffentlich in Zukunft jemandem Zeit zu sparen, müssen Sie eine aktuelle Version von pocketsphinx aus dem Github- oder Sourceforge-Repository kompilieren (nicht sicher) was aktueller gehalten wird). Beachten Sie, dass -j8 bedeutet, dass nach Möglichkeit 8 separate Jobs gleichzeitig ausgeführt werden. Wenn Sie mehr CPU-Kerne haben, können Sie die Anzahl erhöhen.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Sphinx funktioniert gut. Ich würde mich nicht darauf verlassen, dass eine lesbare Version des Textes erstellt wird, aber es ist gut genug, dass Sie danach suchen können, wenn Sie nach einem bestimmten Zitat suchen. Das funktioniert besonders gut, wenn Sie einen Suchalgorithmus wie Xapian ( http://www.lesbonscomptes.com/recoll/ ) verwenden, der Platzhalter akzeptiert und keine genauen Suchausdrücke erfordert.
Alles funktioniert wie ein Zauber, aber in meinem Fall musste ich den folgenden Befehl ausführen, um pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Wenn Sie Sprache in Text umwandeln möchten, können Sie versuchen, Ihr Ubuntu Software Center zu öffnen und nach Julius zu suchen
Beschreibung
"Julius" ist eine leistungsstarke LVCSR-Decodersoftware (Large Vocabulary Continuous Speech Recognition) mit zwei Durchgängen für sprachbezogene Forscher und Entwickler.
Eine andere Option, die nicht im Software Center enthalten ist, ist Simon
... ist ein Open-Source-Spracherkennungsprogramm und ersetzt Maus und Tastatur.
Das sieht cool aus, obwohl ich nicht denke, dass es die Frage beantwortet, welche eine Transkription einer vorhandenen Datei erhalten sollte. Davon abgesehen habe ich gerade Sphinx ausprobiert und es ist kläglich gescheitert ... die Transkription war zu 99,9% falsch.
Antworten:
Die Software, die Sie verwenden können, ist CMUSphinx . Anders als in einer anderen Antwort vorgeschlagen, ist Julius nicht geeignet, da er Modelle benötigt. Modelle für die Spracherkennung mit großem Wortschatz sind für Julius nicht verfügbar.
Mit pocketsphinx können Sie Audiodateien konvertieren. Diese beiden Befehle müssen die Arbeit erledigen. Zuerst konvertieren Sie die Datei in das gewünschte Format und erkennen es dann:
Die Run Pocketsphinx
Ergebnis wird in result.txt gespeichert.
quelle
speech recognition
undvoice command
Tools: youtube.com/…pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
gearbeitet. Vielleicht sind sie keine optimalen Pakete, aber sie waren die besten Übereinstimmungen, die ich in den Repositories finden konnte.Ich weiß, dass dies alt ist, aber um die Antwort von Nikolay zu erweitern und hoffentlich in Zukunft jemandem Zeit zu sparen, müssen Sie eine aktuelle Version von pocketsphinx aus dem Github- oder Sourceforge-Repository kompilieren (nicht sicher) was aktueller gehalten wird). Beachten Sie, dass -j8 bedeutet, dass nach Möglichkeit 8 separate Jobs gleichzeitig ausgeführt werden. Wenn Sie mehr CPU-Kerne haben, können Sie die Anzahl erhöhen.
Dann laden Sie unter https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ die neuesten Versionen von
cmusphinx-en-us-....tar.gz
und herunteren-70k-....lm.gz
Dann können Sie endlich mit den Schritten aus Nikolays Antwort fortfahren:
Sphinx funktioniert gut. Ich würde mich nicht darauf verlassen, dass eine lesbare Version des Textes erstellt wird, aber es ist gut genug, dass Sie danach suchen können, wenn Sie nach einem bestimmten Zitat suchen. Das funktioniert besonders gut, wenn Sie einen Suchalgorithmus wie Xapian ( http://www.lesbonscomptes.com/recoll/ ) verwenden, der Platzhalter akzeptiert und keine genauen Suchausdrücke erfordert.
Hoffe das hilft.
quelle
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
------->export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Wenn Sie Sprache in Text umwandeln möchten, können Sie versuchen, Ihr Ubuntu Software Center zu öffnen und nach Julius zu suchen
Beschreibung
Eine andere Option, die nicht im Software Center enthalten ist, ist Simon
Referenz-Links
http://julius.sourceforge.jp/en_index.php
http://sourceforge.net/projects/speech2text/
http://simon-listens.org/index.php?id=122&L=1
quelle
Sie können mit speechpad.pw Transkription Panel
Sehen Sie sich das Video zur Verwendung der Transkription an
quelle