Empfehlungen für Software zur optischen Zeichenerkennung?

15

Ich habe einige eBooks / Papiere gesehen, die anscheinend von ihren Papierversionen gescannt wurden, aber der Text in den eBooks / Papieren kann erstaunlicherweise herauskopiert werden. Ich nehme an, dass die direkt gescannten Versionen von einer optischen Zeichenerkennungssoftware verarbeitet wurden.

Ich würde gerne wissen, welche Software für die optische Zeichenerkennung empfohlen wird. Vor allem die, die entweder für Ubuntu oder kostenlos sind? Wenn die für Windows weitaus besser sind, lassen Sie es mich bitte auch wissen.

Ich interessiere mich besonders für diese OCRs, die eine gescannte PDF-Datei als Eingabe akzeptieren und trotzdem eine andere PDF-Datei als Ausgabe erzeugen können, die der eingegebenen entspricht, deren Text jedoch kopierbar ist.

Danke und Grüße!

Bitte beschränken Sie eine Software pro Antwort

Tim
quelle

Antworten:

10

Tesseract OCR Installieren Sie Tesseract OCR

Die ursprüngliche Engine wurde bereits Ende der 80er Jahre von HP und IBM entwickelt, hat sich jedoch als eine der besten Ocular Recognition-Softwares erwiesen, die ich je verwendet habe. Es wurde kürzlich mehrfach aktualisiert und hat sich zu einem der umfassendsten OCR-Tools auf dem Markt entwickelt. Mit den meisten anderen OCR-Tools (mit etwas mehr als 90 Prozent der Textübereinstimmungen) können Standarddokumenttypen problemlos in Text umgewandelt werden.

Folgendes ist ein Beispiel:

tesseract ScannedDocument.png out

Erzeugt eine Datei mit dem Namen out.txt

Dennis
quelle
Vielen Dank! Ich habe nicht gesehen, dass Tesseract die PDF-Ausgabe unterstützt. Weißt du etwas darüber?
Tim
@ Tim, nativ glaube ich nicht, dass Tesseract viele Eingabe- / Ausgabeformate unterstützt. Wie in der Antwort von JanC erwähnt, verwendet gscan2pdf Tesseract für die Texterkennung und unterstützt, wie der Name schon sagt, die PDF-Ausgabe.
Tim Lytle
Beachten Sie, dass OCR für Optical Character Recognition steht: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez
8

Ein weiteres Projekt, das dazu in der Lage sein sollte, ist gscan2pdf

sudo apt-get install gscan2pdf

Dieses Projekt kann auch Tesseract sowie andere Open-Source-OCR-Tools verwenden.

Mark Kirby
quelle
3

Ich kenne keine OCR für Ubuntu, aber für Windows gibt es eine, die die Funktionen hat, die Sie benötigen. Das ist ABBYY FineReader. Dies ist die Seite, aber sie ist nicht kostenlos

vicmp3
quelle
1
Ich habe FineReader genau nach Tims Wünschen verwendet (zum Öffnen geschützter PDFs)
Extender
3

Kostenlose Lösung gibt es in Repos, CunieForm (und YAGF als Gnome-Frontend dafür)

Extender
quelle
Vielen Dank! Unterstützt CunieForm PDF als Eingabe- und Ausgabeformat? Ich habe dies nicht auf seiner Wikipedia-Seite und seiner offiziellen Seite gesehen.
Tim
Vielleicht nein, aber PDF in TIFF-Serien aufzuteilen ist sowieso eine einfache Aufgabe :)
Extender
3

Es sieht so aus, als würde das Decapod-Projekt als PDF exportiert oder exportiert. Tesseract muss daher die erforderlichen Informationen exportieren, um zu wissen, wo welcher Text gefunden wurde.

JanC
quelle
1

Adobe Acrobat (kein Reader, keine kostenlose Anwendung) kann ein gescanntes PDF-Dokument mit OCR-Funktion versehen und über dem Bild eine unsichtbare Textebene hinzufügen, sodass der Text ausgewählt und kopiert werden kann. Leider habe ich es nicht in der Hand, zu überprüfen, wo genau sich diese Funktion in der Benutzeroberfläche von Acrobat befindet, aber ich habe sie einige Male erfolgreich für denselben Zweck verwendet, den Sie erwähnt haben.

Und ja, dies ist eine Windows-Software, keine Linux-Software, aber laut Wine HQ-Anwendungsdatenbank funktioniert sie unter Wine .

Serge Broslavsky
quelle
1

Die beste OCR-Software ist normalerweise in Drucker / Scanner / Kopierer integriert. Der Canon IRC 3880 in meinem Büro kann großartige OCR-PDFs einfacher und schneller ausgeben als jedes mir bekannte Desktop-Programm. Legen Sie das Buch in das Fach (ungebunden), wählen Sie Ihre E-Mail-Adresse und drücken Sie die grüne Taste.

Die meisten PDF-Dateien der Texterkennung, die Sie im Internet finden, sind für ähnliche Maschinen bestimmt. Das Problem ist, dass der Preis für den Heimgebrauch zu hoch ist (ca. 12000 Euro IRC).

Javier Rivera
quelle
1

OCRFeeder

Es ist eine GUI-Anwendung.

Bildbeschreibung hier eingeben

Es verwendet Tesseract-OCR oder OCR als OCR-Engine.

Kann mit Software Center oder mit installieren ,

sudo apt-get install ocrfeeder
user224082
quelle