Scan-to-PDF-Software für Linux?

18

Ich habe einen Workflow, bei dem ich Papierdokumente mit einem Fujitsu ScanSnap S500- Dokumentenscanner in durchsuchbare PDFs scanne . Ich bin kein großer Fan der mitgelieferten Software, aber die Bedienung ist denkbar einfach: Legen Sie einen Stapel Papier nach oben, drücken Sie den grünen Knopf, und eine durchsuchbare PDF-Datei wird ausgegeben.

Jetzt möchte ich etwas Ähnliches unter Linux (Ubuntu 10.10) machen. Der Scanner wird ab Werk unterstützt.

Ich habe angeschaut gscan2pdfund XSane:

  • XSane sieht mächtig aus, eignet sich aber nicht wirklich als Workflow-Lösung;
  • gscan2pdf ist etwas näher am "push the button, get the pdf" ideal, aber immer noch nicht 100% da.

Andere Software, die Sie empfehlen können (kostenlos oder anderweitig)?

NPE
quelle
Ich benutze PDF-Tassen, aber es ist ein Bild nicht durchsuchbar Text
RobotHumans
1
Was ist mit gscan2pdf nicht 100% da?
digitxp
@digitxp Ich wollte die Frage nicht mit einer Liste von Problemen, Vorlieben und Abneigungen für ein Produkt überfrachten. Auf gscan2pdfIhre Frage hin war die Texterkennung jedoch größtenteils unbrauchbar (einige Motoren waren besser als andere), und insgesamt war sie nicht so effizient wie die ursprüngliche Lösung. Wie auch immer, das Wesentliche meiner Frage ist, zu sehen, was es sonst noch gibt, damit ich verschiedene Lösungen ausprobieren und herausfinden kann, was für mich am besten funktioniert.
NPE
@digitxp Ich habe gerade meinen vorherigen Kommentar noch einmal gelesen und es klingt ziemlich negativ. Das war nicht die Absicht. gscan2pdfist eigentlich ziemlich nah an dem, was ich suche, aber es gibt Bereiche, in denen es leider im Vergleich zur ursprünglichen Lösung fehlt.
NPE

Antworten:

18

Hier sind einige Dinge, die ich gefunden habe, als ich dies zu Beginn dieses Jahres recherchierte. Leider kann ich aufgrund meiner eingeschränkten Bewertung nicht mehr als einen Hyperlink posten. Daher müssen Sie die Links bei Google suchen.

gscan2pdf

Ein wirklich gutes GUI-System, das verschiedene OCR-Engines für das Backend verwenden kann. Dies entspricht wahrscheinlich Ihrer One-Touch-Lösung (und digitxp hat dies bereits erwähnt).

Tesseract OCR Engine

Kann mit gscan2pdf verwendet werden.

Ocropus

Mit ocropus bin ich nicht weit gekommen, da es ohne umfangreiches Training keinen Text erkennen konnte. Es wäre wahrscheinlich sehr gut für Bücher, hat aber bei Rechnungen und so nicht gut funktioniert. YMMV.

Keilschrift

Ich hatte den besten Erfolg mit Cuneiform und konnte durchsuchbare PDFs mit Skriptbefehlen erstellen, die dem folgenden Workflow ähneln:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Sie müssen auch das exactimage-Paket installieren.

Verschiedene Open-Source-Projekte für das OCR'ing von PDFs verwenden Cuniform und hocr2pdf :

  • WatchOCR
  • Archivista

Lassen Sie mich wissen, was Sie herausfinden!

Eric Holmberg
quelle