Wie kann ich Text aus Bildern extrahieren?

25

Wie kann ich Text aus Bildern extrahieren?

Ich spreche nicht von gescannten Dateien, sondern von Bildern der Gartenvielfalt, beispielsweise wenn Sie im Unterricht ein hochauflösendes Bild von einer Tafel machen, das schön handgeschrieben ist. oder wenn Sie eine Seite aus einem Rezeptbuch fotografieren und das Rezept im Textformat haben möchten.

Irgendeine freie und offene Software dafür?

Ich habe versucht, Tesseract, und die Ergebnisse waren schrecklich.

Strapakowsky
quelle
Ich benötige eine Texterkennung, die Bengalisch und Englisch gleichzeitig unterstützt.
alhelal

Antworten:

26

Der Akt des Extrahieren von Text aus Bildern aufgerufen OCRund Ubuntu hat eine Wiki - Seite gewidmet OCR . Von dieser Seite:

Verfügbare OCR-Tools

Die Ubuntu Universe-Repositorys enthalten die folgenden OCR-Tools:

  1. gocr - Eine Befehlszeilen-OCR
  2. Fuzzyocr - Spamassassin-Plugin zum Überprüfen von Bildanhängen
  3. libhocr0 - Hebräische OCR
  4. ocrad - Programm zur optischen Zeichenerkennung
  5. ocrfeeder - Dokumentlayoutanalyse und optisches Zeichenerkennungssystem
  6. ocropus - Dokumentenanalyse- und OCR-System
  7. tesseract-ocr

Die Ubuntu Multiverse-Repositorys enthalten außerdem:

  1. Keilschrift - mehrsprachiges OCR-System

Einige Pakete sind veraltet, aber inoffizielle neue finden Sie in Alex_P PPA (PPA- Zusatzcode : ppa: alex-p / notesalexp). Wenn Sie noch nie einen PPA verwendet haben, überprüfen Sie, wie Sie Software von einem PPA hinzufügen .

Bearbeiten: Wie in Kommentar gezeigt, existiert Clara OCR auch, aber es wurde bei Hardy stuk und ihre Website hat 2009 als letzte aktualisiert.

Rinzwind
quelle
Haben Sie Erfahrung damit, eines dieser Beispiele für die von mir beschriebenen zu verwenden? Ich wurde ein bisschen skeptisch gegenüber regulären OCR-Tools für sie. Nummer 7 auf der Liste ist die, die ich ausprobiert habe und die schrecklich war.
Strapakowsky
Wenn ich mich recht entsinne, habe ich es auch mit Gocr versucht, mit ebenso schrecklichen Ergebnissen. Wenn Sie mit Erfolg versucht haben, welche Syntax haben Sie verwendet? Vielen Dank.
Strapakowsky
Überhaupt keine! Ich habe mich nie mit OCR beschäftigt: D Die Frischfleischsuche zeigt Clara OCR und tesseract-ocr;) ( freshmeat.net/search/… )
Rinzwind
Liege ich falsch, wenn ich sage, dass für eine erfolgreiche Verwendung von OCR Kenntnisse des Prozesses und eine sorgfältige Einrichtung erforderlich sind, um das jeweilige zu scannende Bild zu berücksichtigen? Wenn ich also Recht habe, können schlechte Ergebnisse auf den Benutzer und nicht auf die Software zurückzuführen sein.
NN
OCRFunktioniert am besten, wenn Sie wissen, wie das Image erstellt wird, und Sie mit der von Ihnen verwendeten Software sehr gut vertraut sind (letztere ist der Grund, warum ich nie dazu gekommen bin, sie zu verwenden).
Rinzwind
18

tesseract-ocrwäre der Große im Vergleich zu allen anderen. Führen Sie zur Installation den Befehl aus sudo apt-get install tesseract-ocr.

Verwendung ist tesseract filename.jpg output.txt.

Der obige Befehl wird generiert output.txt.

Sie können die entsprechende Sprache auswählen. In diesem Fall müssen Sie das tesseract-ocr-LANGPaket installieren , in dem LANGsich der aus drei Buchstaben bestehende ISO 639-2-Sprachcode befindet . Im Moment haben Sie 123 Sprachen am 18.04 Repo. Dann benutze zum Beispiel:

tesseract mySpanishText.jpg output -l spa
Sudhir Belagali
quelle
Hey, das funktioniert, ist aber nicht genau, oder ich würde eher sagen, es ist 80-85% genau. Beispiel für dieses Bild: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , es hat das $ -Zeichen und auch die meisten Klammern durcheinander gebracht. Quadratisch, rund, geschweift, alle Klammern sind ein Problem, sie werden nie richtig extrahiert. Kennen Sie eine Lösung?
Milan Chheda