Wie kann ich Text aus Bildern extrahieren?
Ich spreche nicht von gescannten Dateien, sondern von Bildern der Gartenvielfalt, beispielsweise wenn Sie im Unterricht ein hochauflösendes Bild von einer Tafel machen, das schön handgeschrieben ist. oder wenn Sie eine Seite aus einem Rezeptbuch fotografieren und das Rezept im Textformat haben möchten.
Irgendeine freie und offene Software dafür?
Ich habe versucht, Tesseract, und die Ergebnisse waren schrecklich.
software-recommendation
images
ocr
Strapakowsky
quelle
quelle
Antworten:
Der Akt des Extrahieren von Text aus Bildern aufgerufen
OCR
und Ubuntu hat eine Wiki - Seite gewidmet OCR . Von dieser Seite:Verfügbare OCR-Tools
Die Ubuntu Universe-Repositorys enthalten die folgenden OCR-Tools:
Die Ubuntu Multiverse-Repositorys enthalten außerdem:
Einige Pakete sind veraltet, aber inoffizielle neue finden Sie in Alex_P PPA (PPA- Zusatzcode : ppa: alex-p / notesalexp). Wenn Sie noch nie einen PPA verwendet haben, überprüfen Sie, wie Sie Software von einem PPA hinzufügen .
Bearbeiten: Wie in Kommentar gezeigt, existiert Clara OCR auch, aber es wurde bei Hardy stuk und ihre Website hat 2009 als letzte aktualisiert.
quelle
OCR
Funktioniert am besten, wenn Sie wissen, wie das Image erstellt wird, und Sie mit der von Ihnen verwendeten Software sehr gut vertraut sind (letztere ist der Grund, warum ich nie dazu gekommen bin, sie zu verwenden).tesseract-ocr
wäre der Große im Vergleich zu allen anderen. Führen Sie zur Installation den Befehl aussudo apt-get install tesseract-ocr
.Verwendung ist
tesseract filename.jpg output.txt
.Der obige Befehl wird generiert
output.txt
.Sie können die entsprechende Sprache auswählen. In diesem Fall müssen Sie das
tesseract-ocr-LANG
Paket installieren , in demLANG
sich der aus drei Buchstaben bestehende ISO 639-2-Sprachcode befindet . Im Moment haben Sie 123 Sprachen am 18.04 Repo. Dann benutze zum Beispiel:quelle