Gibt es Tools zur Automatisierung der OCR gescannter PDF-Dateien auf ähnliche Weise wie die OCR-Funktion von Acrobat? [geschlossen]

10

Open Source bevorzugt, aber nicht notwendig.

Ich habe Adobe Acrobat 8 ​​und mag die OCR-Funktion, mit der im Wesentlichen eine unsichtbare Ebene mit OCR-Text auf ein gescanntes Dokument gelegt werden kann. Auf dem Bildschirm wird also das gescannte Originaldokument angezeigt, das Ergebnis kann jedoch durchsucht werden.

Was ich suche, ist eine Möglichkeit, diesen Prozess zu automatisieren. Ich habe derzeit einige Skripte, die wir zum Verarbeiten und Archivieren gescannter Dateien verwenden, und suche nach etwas, das ich direkt in diesen Stapelprozess einbinden kann, um OCR auf ähnliche Weise wie mit Acrobat durchzuführen.

Alle Vorschläge willkommen, danke!

Boden
quelle
1
PS - Ich versuche, Userland-Fragen zum Superuser zu behalten. Die Implementierung, die sich aus dieser Frage ergibt, wird jedoch definitiv auf dem Server ausgeführt, auf dem ich gescannte Dokumentation verarbeitet habe. Es war also ein Fehler.
Boden

Antworten:

8

Ich habe dies in einem Archivierungsprojekt für Unternehmensdokumente implementiert. Die gescannte Datei ist eine TIF-Datei (einzelne Seite). Verwenden Sie dann Cuneiform , um eine Hocr-Datei des einzelnen TIF zu erstellen. Verwenden Sie dann hocr2pdf, um die PDF-Datei auszugeben. Bei mehreren Scanseiten verwende ich gs, um die PDFs zu einem einzigen PDF-Dokument zu kombinieren. Funktioniert sehr gut, OCR ist gut genug für unsere Bedürfnisse und kann in jedem PDF-Viewer durchsucht werden.

xeon
quelle
Interessant. Ist das resultierende PDF das Bild aus dem ursprünglichen Scan mit einer eingebetteten Textebene, oder ist es nur Text, bevor ich zu viel Zeit damit verbringe, es zu betrachten?
Boden
Es ist das Bild des ursprünglichen Scans mit eingebetteter Textebene. Die Hocr-Datei ist eine Textausgabe mit HTML-Markups.
Xeon
Ausgezeichnet. Ich werde es versuchen. Wenn es so aussieht, als würde es funktionieren, werde ich Ihre Antwort als akzeptiert markieren. Vielen Dank!
Boden
1
Danke noch einmal. Es ist ein bisschen mühsam, diese beiden Typen zu installieren, aber es funktioniert. Ich habe ein einfaches Skript geschrieben, um einen FTP-Ordner auf neue .tif-Dateien zu überprüfen, auf denen Keilschrift und hocr2pdf ausgeführt werden, und dann die Ergebnisse mithilfe von curl in eine Sharpoint-Dokumentbibliothek hochgeladen. Auf diese Weise können Benutzer Dokumente direkt vom Kopiergerät aus archivieren, und die Archive können vollständig im Text durchsucht werden. Frage: Wissen Sie, was die Option "Auflösung überschreiben" in hocr2pdf bewirkt?
Boden
Ich bin froh, dass es für Sie funktioniert. Ich weiß nicht, dass das Argument -r dies tut.
Xeon
1

Haben Sie sich WatchOCR angesehen? Sie können es von http://www.watchocr.com herunterladen. Es handelt sich um einen kostenlosen Open-Source-OCR-Server, der nur Bild-PDFs in textsuchbare PDFs aus einem überwachten Ordner oder einer Netzwerkfreigabe umwandelt.

rlangner
quelle
0

Ich mag die Klänge von xeons Antwort, obwohl OCRopus nach viel Spaß klingt.

Kara Marfia
quelle
Als ich verschiedene Lösungen recherchierte und testete. Ich habe das versucht und tesseract-ocr und sie hatten zu der Zeit keine gute Möglichkeit, als PDF auszugeben. Ich habe nicht untersucht, ob sie diese Funktionen haben ... Ich weiß, dass tesseract-ocr sie in ihrer Zeitleiste hat ...
xeon