Ich habe mehrere tausend Seiten gescannter Buchseiten. Jede Seite wird einzeln als JPG gespeichert. Die Schrift ist klar, aber die Schriftarten variieren und die Seiten enthalten Bilder und Illustrationen.
Ich muss eine Liste aller Wörter in jeder JPG-Datei erstellen. Gibt es ein Befehlszeilentool zum Scannen eines Bildes, in dem die angezeigten Wörter aufgelistet sind? Es muss nicht perfekt gescannt werden, sondern nur eine Schätzung.
command-line
ocr
Dorf
quelle
quelle
Antworten:
Tesseract ist hier wahrscheinlich die am häufigsten verwendete Lösung. Es ist in den meisten Paket-Repositorys verfügbar, z.
und kann mit verwendet werden
quelle
Installieren
imagemagick
,pdftotext
(in einem Paket gefunden namenspoppler-utils
innerhalb einiger Paketmanager) und ocrmypdf . Letzteres ist eine schnelle (ocr benötigt viel CPU und ist so konfiguriert, dass alle Ihre Kerne verwendet werden), quelloffene und häufig aktualisierte OCR-Software. Dieser Ansatz ist möglicherweise übertrieben, da er tatsächlich versucht, jedem Wort eine Zeichenfolge zuzuweisen, anstatt nur ein Wort zu kennzeichnen, aber ich hatte große Probleme, eine gute und einfach zu verwendende OpenSource-OCR-Software im Allgemeinen zu finden. Dann in dem Verzeichnis, in dem Sie alle Ihre JPGs gespeichert haben:quelle
ocrmypdf
machte meinen TagBilddatei.png um 480% hochskalieren, zu Graustufen wechseln, mit Weiß auffüllen, schärfen und dann mit tesseract OCR extrahieren. Es funktioniert die meiste Zeit gut, mit Ausnahme von sehr großen Schriftarten und Weiß auf Schwarz. Wenn die Schriftarten sehr groß sind, können Sie nur 200% oder 300% höher skalieren.
Das Ergebnis ist in file.txt.
quelle
Für Linux-Benutzer funktioniert nichts so gut wie die Konvertierung von PDF in Docx mit Calibre. https://calibre-ebook.com/download_linux
quelle
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Quelle: https://help.ubuntu.com/community/OCR
quelle