Open Source bevorzugt, aber nicht notwendig.
Ich habe Adobe Acrobat 8 und mag die OCR-Funktion, mit der im Wesentlichen eine unsichtbare Ebene mit OCR-Text auf ein gescanntes Dokument gelegt werden kann. Auf dem Bildschirm wird also das gescannte Originaldokument angezeigt, das Ergebnis kann jedoch durchsucht werden.
Was ich suche, ist eine Möglichkeit, diesen Prozess zu automatisieren. Ich habe derzeit einige Skripte, die wir zum Verarbeiten und Archivieren gescannter Dateien verwenden, und suche nach etwas, das ich direkt in diesen Stapelprozess einbinden kann, um OCR auf ähnliche Weise wie mit Acrobat durchzuführen.
Alle Vorschläge willkommen, danke!
pdf
document-management
ocr
Boden
quelle
quelle
Antworten:
Ich habe dies in einem Archivierungsprojekt für Unternehmensdokumente implementiert. Die gescannte Datei ist eine TIF-Datei (einzelne Seite). Verwenden Sie dann Cuneiform , um eine Hocr-Datei des einzelnen TIF zu erstellen. Verwenden Sie dann hocr2pdf, um die PDF-Datei auszugeben. Bei mehreren Scanseiten verwende ich gs, um die PDFs zu einem einzigen PDF-Dokument zu kombinieren. Funktioniert sehr gut, OCR ist gut genug für unsere Bedürfnisse und kann in jedem PDF-Viewer durchsucht werden.
quelle
Haben Sie sich WatchOCR angesehen? Sie können es von http://www.watchocr.com herunterladen. Es handelt sich um einen kostenlosen Open-Source-OCR-Server, der nur Bild-PDFs in textsuchbare PDFs aus einem überwachten Ordner oder einer Netzwerkfreigabe umwandelt.
quelle
Ich mag die Klänge von xeons Antwort, obwohl OCRopus nach viel Spaß klingt.
quelle