Ich habe einige eBooks / Papiere gesehen, die anscheinend von ihren Papierversionen gescannt wurden, aber der Text in den eBooks / Papieren kann erstaunlicherweise herauskopiert werden. Ich nehme an, dass die direkt gescannten Versionen von einer optischen Zeichenerkennungssoftware verarbeitet wurden.
Ich würde gerne wissen, welche Software für die optische Zeichenerkennung empfohlen wird. Vor allem die, die entweder für Ubuntu oder kostenlos sind? Wenn die für Windows weitaus besser sind, lassen Sie es mich bitte auch wissen.
Ich interessiere mich besonders für diese OCRs, die eine gescannte PDF-Datei als Eingabe akzeptieren und trotzdem eine andere PDF-Datei als Ausgabe erzeugen können, die der eingegebenen entspricht, deren Text jedoch kopierbar ist.
Danke und Grüße!
Bitte beschränken Sie eine Software pro Antwort
Ein weiteres Projekt, das dazu in der Lage sein sollte, ist gscan2pdf
Dieses Projekt kann auch Tesseract sowie andere Open-Source-OCR-Tools verwenden.
quelle
Ich kenne keine OCR für Ubuntu, aber für Windows gibt es eine, die die Funktionen hat, die Sie benötigen. Das ist ABBYY FineReader. Dies ist die Seite, aber sie ist nicht kostenlos
quelle
Kostenlose Lösung gibt es in Repos, CunieForm (und YAGF als Gnome-Frontend dafür)
quelle
Es sieht so aus, als würde das Decapod-Projekt als PDF exportiert oder exportiert. Tesseract muss daher die erforderlichen Informationen exportieren, um zu wissen, wo welcher Text gefunden wurde.
quelle
Adobe Acrobat (kein Reader, keine kostenlose Anwendung) kann ein gescanntes PDF-Dokument mit OCR-Funktion versehen und über dem Bild eine unsichtbare Textebene hinzufügen, sodass der Text ausgewählt und kopiert werden kann. Leider habe ich es nicht in der Hand, zu überprüfen, wo genau sich diese Funktion in der Benutzeroberfläche von Acrobat befindet, aber ich habe sie einige Male erfolgreich für denselben Zweck verwendet, den Sie erwähnt haben.
Und ja, dies ist eine Windows-Software, keine Linux-Software, aber laut Wine HQ-Anwendungsdatenbank funktioniert sie unter Wine .
quelle
Die beste OCR-Software ist normalerweise in Drucker / Scanner / Kopierer integriert. Der Canon IRC 3880 in meinem Büro kann großartige OCR-PDFs einfacher und schneller ausgeben als jedes mir bekannte Desktop-Programm. Legen Sie das Buch in das Fach (ungebunden), wählen Sie Ihre E-Mail-Adresse und drücken Sie die grüne Taste.
Die meisten PDF-Dateien der Texterkennung, die Sie im Internet finden, sind für ähnliche Maschinen bestimmt. Das Problem ist, dass der Preis für den Heimgebrauch zu hoch ist (ca. 12000 Euro IRC).
quelle
Meine kostenlose Online-OCR-Lieblingssoftware wird von Ricoh Innovations angeboten. Dies ist ein Beta-Programm, aber ich finde es funktioniert ganz gut. Probieren Sie es aus unter: http://beta.rii.ricoh.com/betalabs/content/document-conversion
quelle
OCRFeeder
Es ist eine GUI-Anwendung.
Es verwendet Tesseract-OCR oder OCR als OCR-Engine.
Kann mit Software Center oder mit installieren ,
quelle
FineReader hat auch eine Online-Version. Es behauptet, PDFs als Eingabeformat verarbeiten zu können --- http://finereader.abbyyonline.com/en/Help/Faq/
quelle