Die Kurzversion der Frage: Ich suche eine Spracherkennungssoftware, die unter Linux läuft und eine anständige Genauigkeit und Benutzerfreundlichkeit aufweist. Jede Lizenz und Preis ist in Ordnung. Es sollte nicht auf Sprachbefehle beschränkt sein, da ich in der Lage sein möchte, Text zu diktieren.
Mehr Details:
Ich habe das Folgende unbefriedigend ausprobiert:
- CMU Sphinx
- CVoiceControl
- Ohren
- Julius
- Kaldi (zB Kaldi GStreamer Server )
- IBM ViaVoice (lief früher unter Linux, wurde aber vor Jahren eingestellt)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- schreien
- silvius ( basiert auf dem Spracherkennungs-Toolkit von Kaldi)
- Simon hört zu
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + Libelle + Damselfly
- https://github.com/DragonComputer/Dragonfire : Akzeptiert nur Sprachbefehle
Alle oben genannten nativen Linux-Lösungen sind sowohl ungenau als auch benutzerfreundlich (oder einige erlauben kein Freitext-Diktat, sondern nur Sprachbefehle). Mit schlechter Genauigkeit meine ich eine Genauigkeit, die deutlich unter der von der Spracherkennungssoftware liegt, die ich unten für andere Plattformen erwähnt habe. Was Wine + Dragon NaturallySpeaking betrifft, so stürzt es meiner Erfahrung nach immer wieder ab, und ich bin leider nicht der Einzige, der solche Probleme hat.
Unter Microsoft Windows verwende ich Dragon NaturallySpeaking, unter Apple Mac OS XI Apple Dictation und DragonDictate, unter Android Google-Spracherkennung und unter iOS die integrierte Apple-Spracherkennung.
Baidu Research hat gestern den Code für seine Spracherkennungsbibliothek unter Verwendung der mit Torch implementierten Connectionist Temporal Classification veröffentlicht . Benchmarks von Gigaom sind ermutigend, wie im folgenden Screenshot gezeigt, aber mir ist kein guter Wrapper bekannt, der es ohne einiges an Code (und einen großen Trainingsdatensatz) nutzbar macht:
Es gibt einige sehr Alpha-Open-Source-Projekte:
- https://github.com/mozilla/DeepSpeech (Teil von Mozillas Vaani-Projekt: http://vaani.io ( mirror ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, ein System zur Steuerung eines Linux-Systems mit Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (wird von Google veröffentlicht und auf der Interspeech 2018 erwähnt)
Ich bin mir auch dieses Versuchs bewusst, den Stand der Technik und die jüngsten Ergebnisse (Bibliographie) zur Spracherkennung zu verfolgen. sowie diesen Benchmark bestehender Spracherkennungs-APIs .
Ich kenne Aenea , mit dem Spracherkennung über Dragonfly auf einem Computer Ereignisse an einen anderen Computer senden kann, aber es hat einige Latenzkosten:
Mir sind auch diese beiden Vorträge bekannt, in denen es um die Linux-Option zur Spracherkennung geht:
- 2016 - Die elfte HOFFNUNG: Sprachcodierung mit Open Source-Spracherkennung (David Williams-King)
- 2014 - Pycon: Mit Python per Sprache codieren (Tavis Rudd)
quelle
Antworten:
Momentan experimentiere ich mit der Verwendung von KDE Connect in Kombination mit der Spracherkennung von Google auf meinem Android-Smartphone.
Mit KDE Connect können Sie Ihr Android-Gerät als Eingabegerät für Ihren Linux-Computer verwenden (es gibt auch einige andere Funktionen). Sie müssen die KDE Connect-App aus dem Google Play Store auf Ihrem Smartphone / Tablet installieren und sowohl kdeconnect als auch indicator-kdeconnect auf Ihrem Linux-Computer installieren. Für Ubuntu-Systeme läuft die Installation wie folgt ab:
Der Nachteil dieser Installation ist, dass eine Reihe von KDE-Paketen installiert werden, die Sie nicht benötigen, wenn Sie die KDE-Desktop-Umgebung nicht verwenden.
Sobald Sie Ihr Android-Gerät mit Ihrem Computer gekoppelt haben (sie müssen sich im selben Netzwerk befinden), können Sie die Android-Tastatur verwenden und dann auf das Mikrofon klicken / drücken, um die Google-Spracherkennung zu verwenden. Während Sie sprechen, wird Text überall dort angezeigt, wo Ihr Cursor auf Ihrem Linux-Computer aktiv ist.
Die Ergebnisse sind für mich etwas gemischt, da ich gerade ein technisches astrophysikalisches Dokument schreibe und die Google-Spracherkennung mit dem Jargon zu kämpfen hat, den Sie normalerweise nicht lesen. Vergessen Sie auch, Zeichensetzung oder korrekte Großschreibung herauszufinden.
quelle
Derzeit funktioniert nur Voice Notebook unter Linux.
quelle
Als ein weiterer Linuxer, der nach einem nützlichen Diktierprogramm suchte, habe ich mir speechpad.pw angesehen:
Nachteile:
Speechpad.pw ist also eine sehr geschützte und auch geschlossene Quelle und auch an Google gebunden, das wir alle als schlaflose Metadaten, persönliche Informationen und Sammler persönlicher Inhalte kennen.
Diese Nachteile machen es zu einer No-Go-Anwendung für mich, obwohl die Spracherkennung selbst sehr gut funktioniert - viel besser als alles, was ich bisher gesehen habe.
quelle
Die Chrome-App "VoiceNote II" ( http://voicenote.in/ ) funktioniert auf meinem Xubuntu 16.04-Computer hervorragend. Es war kein Sprachtraining erforderlich und die Einrichtung war einfach. Eine Suche, um es zu finden, ein Klick, um es zu installieren, ein Klick, um eine Verknüpfung zu erstellen und sie an den Desktop zu binden.
quelle
Ich würde vorschlagen, dass Sie Dragon auf Ihrem Telefon oder Tablet verwenden und den Text dann per E-Mail an sich selbst senden. Es ist ein Widerstand, aber es funktioniert und ist sehr genau. Wenn Sie darauf bestehen, Linux für diesen Zweck zu verwenden, wird das Kopieren und Veröffentlichen des Lebens durch das Abrufen eines zweiten Bildschirms erheblich erleichtert.
Ich habe dies nicht ausprobiert, aber möglicherweise können Sie das Python Bluetooth Chat-Programm mit dragon auf Ihrem Tablet / Telefon verwenden oder anpassen. Es kann auch Remote-Tastatur-Apps für Mobilgeräte geben, die Diktateingaben unterstützen.
Ich werde experimentieren und versuchen, mit etwas Bestimmtem auf Sie zurückzukommen.
quelle
Ich benutze die KD Connect App. es funktioniert sehr effektiv! Ich kann meinen Blick auf den Monitor richten, während ich mit dem Telefon auf dem Schreibtisch spreche. Der einzige Nachteil ist, dass dies über die Google-Tastatur erfolgt. Es ist weder kostenlos, native noch Open Source. Dieser Kommentar wurde ohne Korrekturen veröffentlicht und getippt
quelle
Sie können Sprache als Text in einer Linux-Anwendung verwenden. Diese Anwendung verwendet Google Speech Api und das Binärintegrationsmodul für 32- oder 64-Bit-Linux. Sie können eine kurze Präsentation der Verwendung der speechpad.pw-Tools in Ubuntu sehen
quelle