Heute habe ich von unserem Lieferanten ein PDF erhalten, das mehrere gedruckte und gescannte Seiten mit Signaturen usw. enthielt. Ich habe es in Acrobat Reader DC geöffnet. Zu meiner Überraschung konnte der Text aus den offensichtlich gescannten Bildern ausgewählt und als Text kopiert werden. Siehe den Screenshot:
Offensichtlich steckt etwas OCR dahinter, da der kopierte Text Fehler enthält. Aber wie ist das möglich? Ich habe das noch nie gesehen, wie kann das geschaffen werden?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
quelle
quelle
Antworten:
Dies hat (im Gegensatz zu einigen anderen Antworten hier) höchstwahrscheinlich überhaupt nichts mit Acrobat zu tun.
Die meisten (alle?!) Professionellen und die meisten semiprofessionellen Dokumentenscanner führen automatisch OCR durch, wenn Sie "Als PDF speichern" auswählen und das Kontrollkästchen "Durchsuchbar" in den Einstellungen aktiviert haben. Die billigeren "Consumer Grade" -Modelle führen die OCR auf dem angeschlossenen PC durch, typische Netzwerkscanner tun dies intern.
Das Wort "durchsuchbar" bedeutet nicht mehr und nicht weniger als, dass der Scanner OCR durchführt, dann eine Seite mit den darin gescannten Bitmaps erstellt und diese mit unsichtbaren Zeichen aus der OCR überlagert, die jeweils über den jeweiligen Zeichen auf der Bitmap platziert sind.
Auf diese Weise können Sie die "Bitmap" wie von Zauberhand suchen und auch auswählen, kopieren und einfügen. Es ist jedoch überhaupt keine Magie. In Wirklichkeit kopieren Sie nur unsichtbaren Text.
Der Scanner kann auch zusätzliche Aufgaben ausführen, z. B. das Zusammensetzen des großen Bilds aus vielen kleinen Kacheln, die ebenfalls wiederverwendet werden. Dies führt zu einer viel kleineren Dokumentgröße als tatsächlich möglich, kann aber auch zu lustigen Überraschungen führen (nicht so lustig, wenn sie Ihnen passieren!), Wie zum Beispiel, dass der Xerox Ihre Rechnungsgeschichte ändert , ironischerweise auch wenn keine OCR durchgeführt wird, abhängig davon auf der Firmware.
quelle
Grundsätzlich führt ein Programm OCR für die Eingabedatei durch und platziert dann eine unsichtbare Textebene über dem Bild. Alternativ kann auch eine sichtbare Textebene unter dem Bild platziert werden, um den gleichen Effekt zu erzielen.
Wenn Sie etwas auswählen, spielt das Bild keine Rolle, da die Textebene ausgewählt wird.
Es gibt verschiedene Möglichkeiten. Da Acrobat bereits vorgeschlagen wurde, werde ich einige kostenlose Optionen hinzufügen (und zum Glück sind Sie nicht gezwungen, Windows zu verwenden).
PDF-XChange Viewer
Dies ist ein natives Windows-Programm von Tracker Software . Die Freeware-Version läuft unter Wine einwandfrei, wenn Sie die 32-Bit-Edition in einem 32-Bit-Präfix verwenden. Sie können sie daher unter Windows, MacOS und Linux verwenden. In den letzten beiden Fällen benötigen Sie PlayOnMac bzw. PlayOnLinux.
Hier ist ein Bild von dieser Antwort, die ich auf Ask Ubuntu hinterlassen habe:
OCRmyPDF
Dies ist ein in Python geschriebenes Multiplattform-Programm , das auf Ghostscript, Tesseract und Unpaper basiert. Aus den Dokumenten:
Es kann leicht auf Debian- und Ubuntu-Derivaten installiert werden:
Oder unter macOS:
Unter Windows müssten Sie das Docker-Image verwenden. Einzelheiten finden Sie in den offiziellen Dokumenten.
Die Verwendung ist sehr einfach und ich schlage vor, dass Sie die optionalen Parameter
-d
(Deskew) und-c
(Clean) verwenden, um bessere Ergebnisse zu erzielen . Es wird jede Seite begradigen und kleine Punkte / Unvollkommenheiten beseitigen, bevor der OCR-Prozess ausgeführt wird.Sie können (und sollten) die Sprache bereitstellen
-l
.Hier ist ein Beispiel aus diesem verzerrten Dokument in italienischer Sprache:
Der Befehl, den ich verwendete, war:
Online-Tools
Es gibt einige Online-Tools, die dasselbe tun. Bemerkenswert ist, dass PDF24 eine kostenlose webbasierte Version von OCRmyPDF enthält , die ohne Einschränkungen verwendet werden kann.
Siehe auch:
quelle
Dies liegt möglicherweise an einer Acrobat OCR-Funktion :
quelle
Von der Adobe-Website
quelle