Ich habe ein Dokument in guter Qualität gescannt. Ein solcher Scan ist im PDF-Format.
Wie kann ich ocr-Informationen zum PDF hinzufügen, damit es durchsuchbar wird? Mit durchsuchbar meine ich, dass das Ziel darin besteht, beim Anzeigen der PDF-Datei mit evince mit STRG-F tatsächlich nach PDF-Inhalten zu suchen.
Antworten:
pdfsandwich
Tut was Sie wollen und bietet Ubuntu Deb-Pakete. Es verwendet Tesseract als OCR-Engine. Der folgende Aufruf fügt die Textebene zu Ihrer gescannten PDF hinzu:
Das Folgende funktioniert genauso, jedoch mit einer anderen Sprache (ISO 639-2-Code, Download-
tesseract-ocr-LANGCODE
Paket) und Einstellung des Layouts:Wenn Sie eine Fehlermeldung erhalten, laden Sie bitte die letzte Version von Sourceforge herunter .
Haftungsausschluss: Ich bin der Entwickler von pdfsandwich und daher offensichtlich voreingenommen.
quelle
pdfunite
.pdfsandwitch
? Ich mache das mit einigen schwedischen Dokumenten, und es funktioniert gut, mit Ausnahme einiger Rechtschreibfehler (wahrscheinlich aufgrund der Schriftart des Originals), die leicht zu beheben wären, wenn es sich um eine Textdatei handelte, aber wie kann ich dies in der resultierenden PDF tun ?Es gibt zwei Projekte, die den Trick machen: GScan2PDF und OCRFeeder
quelle
Ich fand eine nicht ideale, aber sehr effektive Lösung.
Ich benutze PDF X-Change Viewer über Wine. Es verfügt über eine OCR-Funktion, die dem vorhandenen bildbasierten PDF eine Textebene hinzufügt.
So können Sie Text von dieser unsichtbaren Ebene suchen und kopieren.
quelle
Für eine Befehlszeilenlösung können Sie pdfocr verwenden .
Kurz gesagt, installieren Sie die Software:
Dann führen Sie pdfocr aus:
Das hat bei mir mit Ubuntu 12.04 LTS geklappt.
quelle
pdfsandwich
das Ändern / Komprimieren von PDFs mit hohen Bildern, wodurch im Grunde genommen einige der ursprünglichen Bildinformationen zerstört werden.Eine Lösung, die einfach zu implementieren ist und ein Ausgabe-PDF mit der gleichen Qualität der Eingabedatei sowie einer angemessenen Größe bietet, ist OCRmyPDF:
https://github.com/jbarlow83/OCRmyPDF
quelle
Das ist meine schnelle und schmutzige Lösung auf Basis von ImageMagicks
convert
,tesseract
,parallel
undpdftk
(alle auf dem Debian-basierten Distributionen). Es basiert größtenteils auf diesem Blogbeitrag .quelle
Für das gesamte Verzeichnis mit ppm-Dateien können Sie dieses Skript ppm2ocrpdf.sh verwenden
quelle