Wie komprimiere ich Tesseract-codierte PDFs, während ich eingebetteten Text aus OCR behalte?
Ich habe mit der Verwendung von Tesseract für die Texterkennung von PDFs experimentiert und es war meistens erfolgreich, insbesondere mit deutschen Fraktur-Texten (dem alten gotischen Druck), die Tools wie Adobe Acrobat nicht richtig erkennen können. Das Problem ist, dass die Ausgabedateien von...