erstmal entschuldigung, wenn dies schon mal angefragt wurde - ich habe eine weile durch die vorhandenen posts gesucht, konnte aber keinen support finden.
Ich bin an einer Lösung für Fedora zur Texterkennung für ein mehrseitiges nicht durchsuchbares PDF interessiert und möchte dieses PDF in eine neue PDF-Datei umwandeln, die die Textebene über dem Bild enthält. Unter Mac OS X oder Windows könnten wir Adobe Acrobat verwenden, aber unter Linux, speziell unter Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ scheint eine Lösung zu beschreiben - aber leider bin ich schon beim Abrufen des genauen Bildes verloren.
command-line
pdf
ocr
ingli
quelle
quelle
Antworten:
Der beste und einfachste Weg, es zu benutzen
pypdfocr
, ändert das PDF nicht. pypdfocr ist hier ein Link zum Python-Modul.Am Ende haben Sie einen anderen,
your_document_ocr.pdf
wie Sie es mit durchsuchbarem Text wollen. Die App ändert die Bildqualität nicht. Erhöht die Größe der Datei ein wenig, indem der Overlay-Text hinzugefügt wird.Ich denke, der Befehl ist ziemlich einfach, da er keine GUI benötigt. Vielleicht ist die Installation von pypdfocr etwas ausführlicher:
Update 3. November 2018:
pypdfocr
wird seit 2016 nicht mehr unterstützt und ich habe einige Probleme festgestellt, weil ich nicht betreut wurde.ocrmypdf
( Modul ) erledigt einen ähnlichen Job und kann wie folgt verwendet werden:Installieren:
oder
quelle
Nachdem ich erfahren hatte, dass tesseract jetzt auch durchsuchbare PDFs erstellen kann, fand ich das Skript-Sandwich: http://www.tobias-elze.de/pdfsandwich/
nach der Installation von Abhängigkeiten (dies ist möglicherweise nicht die vollständige Liste)
Ich folgte der Anleitung des Skripts zum Kompilieren aus dem Quellcode
und das erlaubt mir jetzt zu rennen
Daraus resultiert ein durchsuchbares PDF.
quelle
Ein einfaches Tool, das in Ubuntu verfügbar ist, ist 'ocrfeeder'. Es ermöglicht die Erzeugung von PDFs mit OCR-Text, der über die Originaldokumente gelegt wird. Es nutzt Tesseract und andere OCR-Engines (nicht sicher, welche) und sorgt auch für Bildrotation / "Unpaper" usw.
quelle
Ich hatte das gleiche Problem und schrieb es über das Wochenende. Versuch es einmal; es funktioniert super! Es ist eine einfache Hülle
tesseract
. Es wird verwendetpdftoppm
, um eine PDF-Datei in eine Reihe von TIFF-Dateien zu konvertieren. Anschließend wirdtesseract
OCR (Optical Character Recognition) für diese Dateien ausgeführt und eine durchsuchbare PDF-Datei als Ausgabe erstellt. Alle temporären Zwischendateien werden nach Abschluss des Skripts automatisch gelöscht.Quellcode: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Anweisungen zur Installation und Verwendung
pdf2searchablepdf
:Getestet unter Ubuntu 18.04 am 11. November 2019.
Installieren:
Verwenden:
Sie haben jetzt ein PDF mit dem Namen mypdf_searchable.pdf , das durchsuchbaren Text enthält!
Getan. Es gibt keine Python-Abhängigkeiten, da es derzeit vollständig in Bash geschrieben ist.
Referenzen oder verwandte Ressourcen:
quelle