Wie kann ich gescannte Bilder als PDF in eine durchsuchbare PDF-Datei konvertieren? [geschlossen]

19

Ich habe ein PDF eines gescannten Buches.

Ich suche nach einer kostenlosen Software, die OCR ausführt und dann die Option bietet, sie erneut als PDF oder Dokument zu speichern.

Ist dort eines?

slhck
quelle
Sie möchten die Bilder im PDF in Text konvertieren?
DaveParillo
ja, aber ich möchte keine txt-datei als ausgabe. Ich möchte genau das gleiche PDF sehen, aber mit der Option, Strg + F zu drücken und Wörter usw. zu markieren.
Sie werden es sehr schwer haben, diese PDF-Datei zu konvertieren, ohne die Formatierung und den Stil des Texts zu verlieren. Ich habe noch keine OCR-Software gefunden, die ein Dokument von gescannten Bildern ordnungsgemäß bewahren kann.

Antworten:

5

Sie können die 30-Tage-Testversion von Adobe Acrobat Pro herunterladen und die Funktion "OCR-Texterkennung" verwenden ("Dokument> OCR-Texterkennung> Texterkennung mit OCR ..."). Wählen Sie im Einstellungsdialog 'Durchsuchbares Bild' als Ausgabestil. Dadurch wird das Seitenbild beibehalten, aber der OCR-Text eingebettet, sodass das Dokument durchsucht werden kann und Text ausgewählt, kopiert und eingefügt werden kann.

Nach dem Ausführen der OCR müssen Sie Wörter bestätigen oder korrigieren, bei denen die OCR nicht sicher ist, ob sie die Funktionen zum Auffinden von OCR-Verdächtigen verwenden.

Pelme
quelle
Obwohl Adobe nicht kostenlos ist, ist es mit Abstand die leistungsfähigste OCR-Lösung
James Healy
4

Wenn Sie über ein Google-Konto verfügen, enthält Google Text & Tabellen jetzt die Funktion zum Hochladen einer PDF-Datei und zum Ausführen von OCR.

Ich habe es selbst ausprobiert und es macht einen guten Eindruck auf ein zugegebenermaßen gut formatiertes PDF.

Die Formatierung ist ziemlich zerstört, aber der Text scheint zu überleben.

Richard Lucas
quelle
4

Die folgenden Produkte wurden im Internet gefunden, aber ich habe sie nicht verwendet.

Online-Texterkennung

OCR-Terminal

OCR-Terminal ist ein Online-OCR-Dienst, der die optische Zeichenerkennung (Optical Character Recognition, OCR) für Ihre gescannten Bilder und PDF-Dateien durchführt und diese in bearbeitbare und in Text durchsuchbare Dokumente umwandelt.

Kostenlose Texterkennung

Free-OCR.com ist ein kostenloses Online-OCR-Tool (Optical Character Recognition). Mit dieser Option können Sie OCR für jedes von Ihnen bereitgestellte Bild ausführen.
Dieser Service ist kostenlos, keine Registrierung erforderlich. Wir brauchen auch keine E-Mail-Adresse.
Laden Sie einfach Ihre Bilddateien hoch. Free-OCR benötigt entweder JPG, GIF, TIFF BMP oder PDF ( nur erste Seite ). Die einzige Einschränkung besteht darin, dass die Bilder nicht größer als 2 MB, nicht breiter oder höher als 5000 Pixel sein dürfen und es ein Limit von 10 Bilduploads pro Stunde gibt.

Maestro Recognition Server ist kommerziell, verfügt jedoch über eine Online-Demo zum Ausprobieren.

Gratis Software

FreeOCR - nur für Bilder.

FreeOCR ist ein Scan- und OCR-Programm, das die Tesseract-freie OCR-Engine enthält, die auch als Tesseract-GUI bezeichnet wird. Es enthält ein Windows-Installationsprogramm und ist sehr einfach zu verwenden und unterstützt mehrseitige Tiff-Dateien, Faxdokumente sowie die meisten Bildtypen, einschließlich komprimierter Tiff-Dateien, die die Tesseract-Engine allein nicht lesen kann. Es verfügt jetzt über Twain-Scanning.

pdfsandwich - pdf -> pdf konverter.

pdfsandwich ist ein Befehlszeilenprogramm für OCR-gescannte Bücher oder Zeitschriften. Es ist in der Lage, das Seitenlayout auch für mehrspaltigen Text zu erkennen.

Pdfsandwich ist im Wesentlichen ein Wrapper-Skript, das die folgenden Binärdateien aufruft: convert, cuneiform, gs und hocr2pdf. Es ist für die Ausführung auf Unix-Systemen bekannt und wurde unter Linux und MacOS X getestet. Es unterstützt die parallele Verarbeitung auf Multiprozessorsystemen.

Harrymc
quelle
Ich habe gerade pdfsandwich verwendet. Es funktioniert und ist kostenlos! :) Dies wird sicherlich in meiner Diplomarbeit helfen, danke!
Eddy
Sieht aus, als wäre pdfsandwich umgezogen? tobias-elze.de/pdfsandwich
pioto
@pioto: Ich habe oben nicht pdfsandwich hinzugefügt, aber ich habe den Link wie von Ihnen vorgeschlagen repariert.
Harrymc
2

Keilschrift + hocr2pdf + Ghostscript : Eine DIY Open-Source-Lösung.

Ich habe eine Antwort gepostet, in der ich eine Lösung für das Zusammenstellen der PDF-Seiten mit einer Version des jetzt quelloffenen Keilschrift- OCR-Systems und hocr2pdf zusammen mit Ghostscript skizzierte .

Das war speziell für Linux, aber Sie können Cuneiform und Ghostscript auch für Windows bekommen. Ich bin mir jedoch nicht sicher, ob es sich um hocr2pdf oder ein gleichwertiges handelt.

Jukka Matilainen
quelle
1

Hierbei handelt es sich um eine sehr seltsame Methode, bei der Google den Index und die Texterkennung für Sie auf einer Website anzeigen und dann abrufen muss.

jtbandes
quelle
Ja, das habe ich auch gesehen ... seltsam In der Tat :) Ich könnte es am Ende tun ...
0

Installieren Sie Imagemagick . Öffnen Sie ein Cmd-Fenster oder ein Terminal:

convert myfile.pdf myfile-%02d.jpg

Die Ausgabe ist 1 JPG-Datei für jede Seite in Ihrem PDF, myfile-00.jpg, myfile-01.jpg usw.

Übergeben Sie jedes Bild durch ein OCR-Programm. Ich habe nicht viel Erfahrung damit, aber es scheint eine Menge Möglichkeiten zu geben.

Konvertieren Sie jede Textseite zurück in ein PDF. Sie können dies mit imagemagick erneut tun, aber es gibt auch andere Möglichkeiten:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
quelle
0

Ihre Anfrage scheint eine komplizierte Lösung des Problems zu sein, obwohl ich das Problem möglicherweise nicht richtig verstehe. Jedenfalls:

Warum nicht einen PDF-Writer kaufen, mit dem Sie die Daten direkt auf der PDF-Seite eingeben können?

Xavierjazz
quelle
0

Probieren Sie PDFCubed.com aus. Es muss nichts installiert werden, alles erfolgt online. Sie können Ihre Dokumente zur Verarbeitung über das Internet, per E-Mail oder über die Dropbox senden. Gescannte PDFs und TIFs werden in durchsuchbare Text-PDFs konvertiert und können dann über das Internet, per E-Mail oder über die Dropbox abgerufen werden.

Langner
quelle