Ich habe ein PDF eines gescannten Buches.
Ich suche nach einer kostenlosen Software, die OCR ausführt und dann die Option bietet, sie erneut als PDF oder Dokument zu speichern.
Ist dort eines?
software-rec
pdf
ocr
slhck
quelle
quelle
Antworten:
Sie können die 30-Tage-Testversion von Adobe Acrobat Pro herunterladen und die Funktion "OCR-Texterkennung" verwenden ("Dokument> OCR-Texterkennung> Texterkennung mit OCR ..."). Wählen Sie im Einstellungsdialog 'Durchsuchbares Bild' als Ausgabestil. Dadurch wird das Seitenbild beibehalten, aber der OCR-Text eingebettet, sodass das Dokument durchsucht werden kann und Text ausgewählt, kopiert und eingefügt werden kann.
Nach dem Ausführen der OCR müssen Sie Wörter bestätigen oder korrigieren, bei denen die OCR nicht sicher ist, ob sie die Funktionen zum Auffinden von OCR-Verdächtigen verwenden.
quelle
Wenn Sie über ein Google-Konto verfügen, enthält Google Text & Tabellen jetzt die Funktion zum Hochladen einer PDF-Datei und zum Ausführen von OCR.
Ich habe es selbst ausprobiert und es macht einen guten Eindruck auf ein zugegebenermaßen gut formatiertes PDF.
Die Formatierung ist ziemlich zerstört, aber der Text scheint zu überleben.
quelle
Die folgenden Produkte wurden im Internet gefunden, aber ich habe sie nicht verwendet.
Online-Texterkennung
OCR-Terminal
Kostenlose Texterkennung
Maestro Recognition Server ist kommerziell, verfügt jedoch über eine Online-Demo zum Ausprobieren.
Gratis Software
FreeOCR - nur für Bilder.
pdfsandwich - pdf -> pdf konverter.
quelle
Keilschrift + hocr2pdf + Ghostscript : Eine DIY Open-Source-Lösung.
Ich habe eine Antwort gepostet, in der ich eine Lösung für das Zusammenstellen der PDF-Seiten mit einer Version des jetzt quelloffenen Keilschrift- OCR-Systems und hocr2pdf zusammen mit Ghostscript skizzierte .
Das war speziell für Linux, aber Sie können Cuneiform und Ghostscript auch für Windows bekommen. Ich bin mir jedoch nicht sicher, ob es sich um hocr2pdf oder ein gleichwertiges handelt.
quelle
Hierbei handelt es sich um eine sehr seltsame Methode, bei der Google den Index und die Texterkennung für Sie auf einer Website anzeigen und dann abrufen muss.
quelle
Installieren Sie Imagemagick . Öffnen Sie ein Cmd-Fenster oder ein Terminal:
Die Ausgabe ist 1 JPG-Datei für jede Seite in Ihrem PDF, myfile-00.jpg, myfile-01.jpg usw.
Übergeben Sie jedes Bild durch ein OCR-Programm. Ich habe nicht viel Erfahrung damit, aber es scheint eine Menge Möglichkeiten zu geben.
Konvertieren Sie jede Textseite zurück in ein PDF. Sie können dies mit imagemagick erneut tun, aber es gibt auch andere Möglichkeiten:
quelle
Ihre Anfrage scheint eine komplizierte Lösung des Problems zu sein, obwohl ich das Problem möglicherweise nicht richtig verstehe. Jedenfalls:
Warum nicht einen PDF-Writer kaufen, mit dem Sie die Daten direkt auf der PDF-Seite eingeben können?
quelle
Probieren Sie PDFCubed.com aus. Es muss nichts installiert werden, alles erfolgt online. Sie können Ihre Dokumente zur Verarbeitung über das Internet, per E-Mail oder über die Dropbox senden. Gescannte PDFs und TIFs werden in durchsuchbare Text-PDFs konvertiert und können dann über das Internet, per E-Mail oder über die Dropbox abgerufen werden.
quelle