Ich habe einen Workflow, bei dem ich Papierdokumente mit einem Fujitsu ScanSnap S500- Dokumentenscanner in durchsuchbare PDFs scanne . Ich bin kein großer Fan der mitgelieferten Software, aber die Bedienung ist denkbar einfach: Legen Sie einen Stapel Papier nach oben, drücken Sie den grünen Knopf, und eine durchsuchbare PDF-Datei wird ausgegeben.
Jetzt möchte ich etwas Ähnliches unter Linux (Ubuntu 10.10) machen. Der Scanner wird ab Werk unterstützt.
Ich habe angeschaut gscan2pdf
und XSane
:
XSane
sieht mächtig aus, eignet sich aber nicht wirklich als Workflow-Lösung;gscan2pdf
ist etwas näher am "push the button, get the pdf" ideal, aber immer noch nicht 100% da.
Andere Software, die Sie empfehlen können (kostenlos oder anderweitig)?
gscan2pdf
Ihre Frage hin war die Texterkennung jedoch größtenteils unbrauchbar (einige Motoren waren besser als andere), und insgesamt war sie nicht so effizient wie die ursprüngliche Lösung. Wie auch immer, das Wesentliche meiner Frage ist, zu sehen, was es sonst noch gibt, damit ich verschiedene Lösungen ausprobieren und herausfinden kann, was für mich am besten funktioniert.gscan2pdf
ist eigentlich ziemlich nah an dem, was ich suche, aber es gibt Bereiche, in denen es leider im Vergleich zur ursprünglichen Lösung fehlt.Antworten:
Hier sind einige Dinge, die ich gefunden habe, als ich dies zu Beginn dieses Jahres recherchierte. Leider kann ich aufgrund meiner eingeschränkten Bewertung nicht mehr als einen Hyperlink posten. Daher müssen Sie die Links bei Google suchen.
gscan2pdf
Ein wirklich gutes GUI-System, das verschiedene OCR-Engines für das Backend verwenden kann. Dies entspricht wahrscheinlich Ihrer One-Touch-Lösung (und digitxp hat dies bereits erwähnt).
Tesseract OCR Engine
Kann mit gscan2pdf verwendet werden.
Ocropus
Mit ocropus bin ich nicht weit gekommen, da es ohne umfangreiches Training keinen Text erkennen konnte. Es wäre wahrscheinlich sehr gut für Bücher, hat aber bei Rechnungen und so nicht gut funktioniert. YMMV.
Keilschrift
Ich hatte den besten Erfolg mit Cuneiform und konnte durchsuchbare PDFs mit Skriptbefehlen erstellen, die dem folgenden Workflow ähneln:
Sie müssen auch das exactimage-Paket installieren.
Verschiedene Open-Source-Projekte für das OCR'ing von PDFs verwenden Cuniform und hocr2pdf :
Lassen Sie mich wissen, was Sie herausfinden!
quelle