Ich habe ein gescanntes PDF-Material, zu dem ich eine versteckte Textebene hinzufügen möchte, damit ich das Dokument indizieren kann. Ich habe das Ghostscript-Schwarzweiß-TIFF-Ausgabegerät (tiffg4) verwendet, um Seiten als TIFF-Bilder zu extrahieren. Hier ist ein Beispiel dafür, wie sie aussehen:
Die Verarbeitung dieses Bildes mit Tesseract liefert keine guten Ergebnisse.
Das Ändern der Ghostscript-Ausgabe DPI (600, 300, 150, 96) zeigt, dass das Bild mit 96 DPI das beste Ergebnis von Tesseract liefert, aber immer noch nicht zufriedenstellend ist.
Jetzt wollte ich um Rat fragen, welcher Filter dieses Bild für die OCR-Verarbeitung verbessern würde.
Ich könnte imagemagick oder numpy / scipy / ndimage verwenden
quelle