Batch-OCR für viele PDF-Dateien (noch nicht OCRed)? [geschlossen]

9

Ich verwende die Google Desktop-Suche (ich bin unter Vista) und nicht alle meine PDF-Dateien werden in meinem Archivordner erkannt. Es ist normal, dass " PDF-Dateien, die gescannte Bilder enthalten ", nicht indiziert werden ( http://desktop.google.com/support/bin/answer.py?hl=de&answer=90651 ).

Daher möchte ich viele meiner PDF-Dateien OCR, die noch nicht OCRed sind. Mein Ziel: Ich gebe dem Programm einen Ordner und suche alleine in den Unterordnern die PDF-Dateien, die in PDF-OCRed-Dateien konvertiert werden müssen.

Hinweis: Wenn in der Vergangenheit eine PDF-Datei kennwortgeschützt war, habe ich das Kennwort mit einem anderen Batch-Tool (Bezahlwerkzeug) entfernt: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Irgendeine (nicht zu teure) Idee?

Ich habe bereits versucht: Finereader 6 pro auf XP zu der Zeit, aber es war kein Batch-Prozessor enthalten ... Paperfile paperfile.net, das Tesseract http://code.google.com/p/tesseract-ocr/ verwendet . Die OCR ist jedoch nur PDF zu Text, nicht PDF zu PDF! Es gibt auch ein anderes Projekt http://code.google.com/p/ocropus/

Danke im Voraus ;)

Erb
quelle
Ein Jahr später Update: Hallo, anscheinend "ABBYY Hot Folder & Scheduling" -Software, die nur in ABBYY FineReader (> v. 9.0) Corporate & Site-Lizenzeditionen enthalten ist, kann helfen (ich habe es nicht ausprobiert: 600 $!)! Auch Tesseract sollte jetzt an Windows arbeiten (für mich momentan ohne Erfolg !; ()
Erb
Außerdem hat ABBYY FineReader (> v. 9.0) Pro Edition eine Automatisierungsaufgabe: Sie wählen den Hauptordner + seine Unterordner aus und er erledigt die Aufgabe. Das Hauptproblem ist jedoch, dass alle PDFs auf einmal geöffnet werden (!!), dann gelesen werden (= ocr) und dann eine eindeutige PDF-Datei gespeichert wird! Wenn Sie also Hunderte von PDFs haben, funktioniert das verdammte Ding bei mir nicht! ; (Schade, was für ein Albtraum !; (
Erb

Antworten:

6

tl; dr? Beginnen Sie mit Nuance PowerPDF Advanced.

Ich habe die OCR-Software im Dezember 2014 evaluiert, um mich auf ein großes Projekt vorzubereiten - OCR auf Millionen von englischsprachigen Seiten, die stapelweise erstellt wurden. Wenn Sie bereit sind, ein paar hundert Dollar auszugeben, haben Sie viele Möglichkeiten; Testversionen können Sie durchbringen, wenn Sie nur einige hundert Seiten konvertieren müssen.

Viele Softwarepakete möchten alle Eingabedateien laden, OCR durchführen und das Chaos in einer einzigen Ausgabe zusammenführen. IMHO ist das absolut falsch, ich habe keine Ahnung, wer das wollen würde. Ich suchte nach einem echten Stapel: eine Ausgabedatei für jede Eingabedatei, unbeaufsichtigter Vorgang, halten Sie für nichts an, geben Sie mir am Ende einen detaillierten Bericht. Spoiler Alarm: Das habe ich nicht gefunden.

Pakete in alphabetischer Reihenfolge folgen. Die unten aufgeführten Preise sind Listen, aber es gibt viele Rabatte. Nehmen Sie meine Kommentare zur Genauigkeit mit einem Körnchen Salz; Ihre Eingaben werden nicht mit meinen Eingaben übereinstimmen, daher wird Ihr Kilometerstand sicherlich variieren.

ABBYY Finereader 12 Corporate: 400 USD. Die Stapelfunktion wird als "Task-Manager" bezeichnet und befindet sich im Menü "Extras". Es verarbeitet Dateien aus einem Ordner, einschließlich Unterordnern. Es wird gerne eine separate Ausgabedatei für jede Eingabedatei erstellt. Es scheint nicht in der Lage zu sein, die Hierarchie der Eingabeordner beizubehalten. Alle Ausgabedateien wurden in denselben Ausgabeordner verschoben. Die Genauigkeit war in meinen Tests hoch, aber immer noch das niedrigste der Pakete, die ich hier aufgelistet habe.

Adobe Acrobat XI: 300 US-Dollar. Die Stapelfunktion heißt "Texterkennung / In mehreren Dateien" und kann durch Klicken auf Extras (dritte Symbolleiste oben rechts im Hauptbildschirm) aufgerufen werden. Verarbeitet Unterordner, eine Ausgabe für jede Eingabe. Stoppt und fordert Sie auf, eine passwortgeschützte Datei zu finden. Der Eingabeverzeichnisbaum wird standardmäßig nicht beibehalten. Sie können dies tun, indem Sie die Ausgabe in denselben Ordner wie die Eingabe schreiben. Die Genauigkeit war in meinen Tests ziemlich gut.

Nuance OmniPage Ultimate (auch bekannt als v19): 500 US-Dollar. Die Batch-Funktion heißt "DocuDirect" und ist ein separates Programm, das mit dem Paket geliefert wird. Es werden Ordner und Unterordner verarbeitet. Wenn Sie die Funktionen genau richtig auswählen, wird der Eingabeverzeichnisbaum im Ausgabebereich beibehalten. Ein Ausgang für jeden Eingang. Stoppt und fordert ein Kennwort für eine geschützte Datei an. Scheint Multi-Core-Prozessoren hervorragend zu nutzen, um Aufgaben parallel auszuführen. Die Genauigkeit war ausgezeichnet . Die Stabilität des Stapelverarbeiters ist jedoch schlecht. Ein unscharfes Dokument stoppt es in seinen Spuren, um es niemals wiederherzustellen, und entgleist mühelos einen Stapel.

Nuance PowerPDF Advanced v1.1 (Nachfolger von OmniPage Ultimate): 150 US-Dollar. Die Stapelfunktion heißt "Stapelkonverter" und ist über das Hauptprogramm auf der Registerkarte "Erweiterte Verarbeitung" erreichbar. Es werden Ordner und Unterordner verarbeitet, wobei die Eingabestruktur in der Ausgabe erhalten bleibt. Ein Ausgang für jeden Eingang. Verwendet mehrere Kerne, aber nicht aggressiv; Das bedeutet, dass ich es nicht schaffen konnte, einen Multi-Core-Host zu sättigen. Die Genauigkeit ist hervorragend , genauso gut oder besser als bei OmniPage. Durch fehlerhafte oder unscharfe Dateien wurde es nicht hängen gelassen. Der Stapelverarbeiter schreibt ( schockiert ) eine Nur-Text-Protokolldatei in das Ausgabeverzeichnis.

ReadIris Corporate 14: 600 US-Dollar. Die Stapelfunktion wird durch das Element "Stapel-OCR" aufgerufen, das durch Klicken auf die Schaltfläche "Aus Dateien" im Hauptbildschirm angezeigt wird. Es werden Ordner und Unterordner verarbeitet, eine Ausgabe für jede Eingabe, und standardmäßig stimmt die Ausgabeverzeichnisstruktur mit der Eingabeverzeichnisstruktur überein. Stoppt und fordert Benutzereingaben für eine ungültige Datei an. verarbeitet ohne weitere Beanstandung alle geschützten Dokumente offenbar durch OCR-Aufnahme des Bildes. Die Genauigkeit war sehr gut, genau wie bei Acrobat.

Auf meinem Desktop-Computer (nur Dual Core) mit den von mir ausgewählten Eingaben benötigte jedes Paket mindestens 3 Sekunden, um eine Seite zu verarbeiten. einige nahmen mehr. Könnte in der Lage sein, dies auf einer Maschine mit mehr Kernen herunterzufahren.

Es gibt viele Fallstricke. Planen Sie sie unbedingt ein: ungültige PDFs (einige Pakete werden angehalten), passwortgeschützte PDFs (einige Pakete werden angehalten, andere werden sowieso konvertiert!) Und gedrehte Seiten (Querformat statt Hochformat). Wenn Sie möchten, dass der Stapel vollständig ausgeführt wird, müssen Sie den Eingabebereich für diese Pakete sehr, sehr sorgfältig vorbereiten. In der Print-to-PDF-Funktion des GhostScript-Pakets finden Sie Informationen zum Entfernen des Schutzes vor PDFs.

Das Ausführen großer Stapel kann zu Speicherauslastung und Problemen beim Aufhängen führen, auch wenn dies nicht der Fall sein sollte (argh - wahrscheinlich Speicherlecks). Wenn Sie überhaupt irgendeine Art von Automatisierung durchführen, besteht ein großes Problem darin, nachträglich herauszufinden, was wirklich passiert ist - welche Dokumente nicht verarbeitet werden konnten, welche während der Verarbeitung fehlgeschlagen sind usw. Es ist, als hätten die Leute von Desktop-Software noch nie von etwas gehört, das als a bezeichnet wird "Logdatei".

Schließlich ist es für diese Massenmarktpakete ziemlich schwierig, selbst als zahlender Kunde Unterstützung zu erhalten. Zum Beispiel habe ich mich bei einem angesehenen Kundendienstmitarbeiter über ein Paket (das namenlos bleiben soll) beschwert, das für einige große Eingaben hängt. Ich habe 36 Stunden gewartet, bevor ich aufgegeben habe :). Sie schlugen süß vor, die Stapelgröße auf 300 Dokumente zu beschränken. Das war für mich einfach völlig inakzeptabel, aber hey, das Support-Ticket wurde schnell geschlossen, oder? Und das ist alles was zählt, oder? Seufzer.

HTH

chrisinmtown
quelle
Hallo Chrislott, vielen Dank für Ihre ausführliche Antwort. ;) Ich habe es geschätzt. ;) Wir sind mehr als 4 Jahre später und unglaublich immer noch ist keine Software perfekt, um einfach eine automatische OCR in einem Ordner durchzuführen und eine Protokolldatei mit Fehlern freizugeben, sobald sie fertig ist! ... Vielleicht werde ich versuchen, Nuance zu kontaktieren.
Erb
Im Moment verwende ich eine alte Version von Acrobat Pro und mehrere Freeware. Es ist ein langer Prozess. Ich kann es bei Bedarf detaillieren! Aber die Arbeit wird so gut wie möglich gemacht! ;)
Erb
3

Adobe Acrobat verarbeitet einen Ordner mit PDF-Dateien. Wie bei den meisten Adobe-Produkten gibt es eine 30-Tage-Testversion .
Die Funktion befindet sich im Menü 'Dokument':

Dokument> OCR-Textregistrierung> Erkennen Sie Text in mehreren Dateien mithilfe von OCR

Von dort aus können Sie Ihren Ordner hinzufügen.

In Acrobat X ist die Funktion wie folgt verfügbar:

Extras> Text erkennen> In mehreren Dateien
Pelme
quelle
Danke "Pelme". ;) Ich werde es versuchen, wenn es die Zeit erlaubt. Was mir in meiner vorherigen Testversion von finereader.abbyy.com gefallen hat, ist, dass es mehrere verschiedene Sprachen erkennen kann. ;)
Erb
1

Eigentlich wurde pdfsandwich im letzten Jahr aktualisiert und war für mich überhaupt nicht schwierig in Linux Mint zu installieren. Die Ergebnisse sind Adobe Acrobat unterlegen, aber es ist die einzige praktikable Lösung, die ich bisher unter Linux gefunden habe.

Brian Z.
quelle
1
Sehr interessant! Ich wusste es nicht. Ich füge einen Link von en.wikisource.org/wiki/… hinzu und werde ihn irgendwann in der Zukunft testen. (Es gibt tatsächlich viele andere Lösungen, aber ich werde hier nicht anfangen!)
Nemo
0

Versuchen Sie WatchOCR . Es ist ein Open-Source-Softwarepaket, das gescannte Bilder in durch Text durchsuchbare PDFs konvertiert. Es ist kostenlos und Open Source und verfügt über eine schöne Weboberfläche für die Remoteverwaltung. Mit der richtigen Konfiguration kann ein Batch-PDF / OCR-Dienst für ein gesamtes Netzwerk über SMB-Freigaben erstellt werden. Leider ist es nur Linux. Sie können es jedoch auf einem alten Server installieren und dann von Ihrer gesamten Organisation verwenden.

Wenn Sie dasselbe online tun möchten, ohne etwas zu installieren, versuchen Sie es mit PDFCubed.com

rlangner
quelle
Die WatchOCR-Homepage ist besetzt, obwohl archiviert
Tobias Kienzler