Ich habe ca. 80 Seiten in Graustufen-PDF (Bildformat) gescannt. Die Endgröße der Datei beträgt ca. 70 MB, was sehr groß ist.
Jetzt suche ich nach einer Methode, um die bildbasierte Graustufen-PDF-Datei in eine einfache textbasierte Schwarzweiß-PDF-Datei umzuwandeln.
Ich habe viele Versuche mit, gs
aber ohne Erfolg gemacht (nur ein paar Prozent Erholung). Wenn ein Experte eine Idee hat, lassen Sie es mich bitte wissen.
Antworten:
gImageReader ist ein einfaches GTK + Frontend zu
tesseract-ocr
.Entschuldigung für den deutschen Text
quelle
sudo apt-get install tesseract-ocr-[lang]
, indem Sielang
durch den Sprachcode ersetzen , z. B.deu
Deutsch,por
Portugiesisch usw.Sie können pdfocr ausprobieren:
Die Syntax auszuführen ist
wo
input.pdf
ist der Name der Eingabedatei undoutput.pdf
der Ausgabedatei.Standardmäßig wird Tesseract verwendet. So installieren Sie es:
pdfocr erstellt eine eingebettete Textebene.
quelle
Es lädt Tesseract und andere bei der Installation. Es ist eine einfache Ein-Schritt-Lösung und kann als Skript erstellt werden. Es kann verwendet werden
hocr2pdf
, um eine PDF-Datei im Nur-Text-Format zu erstellen, ist jedoch noch nicht für die Hauptsendezeit bereit. Der Standard verwendet tesseract und erstellt ein "sandwiched" pdf: Bild + Text darunter.Das eingebettete Bild kann mit folgenden Befehlen entfernt werden:
Der Text ist jedoch ausgeblendet, sodass er wie eine leere Seite aussieht.
Das Laden der PDF in
LibreOffice Draw
macht den Text sichtbar und das Bild kann manuell gelöscht werden.quelle
not authorized
Fehler inidentify-im6.q16
wie folgt aus : imagemagick - convert: nicht autorisierteaaaa
@ Fehler / constitute.c / Readimage / 453 - StapelüberlaufFür die von @AB unter Ubuntu 14.04 vorgeschlagene grafische Oberfläche sollten Sie Folgendes beachten:
ocr tesseract on ubuntu 14.04
Oder fügen Sie der Repository-Liste Folgendes hinzu:
bevor dies funktioniert:
quelle
Sie können versuchen, mit shrinkpdf die Dateigröße zu verringern und anschließend ocr.sh , um die Textebene hinzuzufügen.
quelle
Klicken Sie in Ihrer PDF-Datei mit der rechten Maustaste und speichern Sie jede Seite als Bild (oder suchen Sie ein Tool, mit dem alle Seiten automatisch erstellt werden).
Öffnen Sie das Ubuntu Software Center. Suche nach tesseract. Dadurch wird YAGF gefunden, das Sie installieren sollten. Klicken Sie in YAGF auf Datei -> Bild öffnen und laden Sie Ihr Bild. Klicken Sie dann auf Datei -> Erkennen.
Ich hatte 100% Genauigkeit in meinem ersten Test.
quelle