Wie extrahiere ich Text aus einer PDF-Datei, die nicht mit einem Index erstellt wurde? Es ist alles Text, aber ich kann nichts suchen oder auswählen. Ich verwende Kubuntu und Okular hat diese Funktion
Bei der optischen Zeichenerkennung (OCR) werden Textbilder in Text konvertiert, der von Textverarbeitungsprogrammen usw. bearbeitet werden kann.
Heute habe ich von unserem Lieferanten ein PDF erhalten, das mehrere gedruckte und gescannte Seiten mit Signaturen usw. enthielt. Ich habe es in Acrobat Reader DC geöffnet. Zu meiner Überraschung konnte der Text aus den offensichtlich gescannten Bildern ausgewählt und als Text kopiert werden. Siehe...
Dies wurde vor einem Jahr hier diskutiert: Stapel-OCR für viele PDF-Dateien (noch nicht OCR-fähig)? Gibt es eine Möglichkeit zum Stapeln von OCR-PDFs, die noch nicht OCR-fähig sind? Ich denke, dies ist der aktuelle Stand der Dinge, die sich mit zwei Problemen befassen: Stapel-OCR-PDFs Windows...
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Super User. Geschlossen vor 4 Jahren . Ich habe ein PDF eines gescannten...
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Super User. Geschlossen vor 4 Jahren . Oftmals stoße ich auf Bitmaps, die nur Textabsätze enthalten, und suchte nach...
Evernote führt OCR für die Bilder durch, die Sie dort gespeichert haben. Gibt es eine Möglichkeit, das Volltextäquivalent für ein Bild in Evernote abzurufen, oder dient die Texterkennung nur zum
Ich suche seit einiger Zeit bei Google, kann aber keine Antwort auf meine Frage finden. Ich habe unerwünschte OCR-Ebenen in einem Dokument, das ich kürzlich mit Adobe Acrobat gescannt habe. Es wurde nicht richtig OCRed und ich möchte einige Informationen redigieren, aber die OCR sorgt dafür, dass...
Ich war am vergangenen Wochenende bei meinen Großeltern. Meine Großmutter zog dieses riesige Buch (~ 1400 Seiten) ihrer Familiengeschichte heraus, das bis etwa 1630 zurückreicht. Ich bin ein riesiger Nerd und dachte, es wäre klug, alle Informationen in einer Datenbank zu speichern und im Internet...
Dieses PDF wurde von Abbyy Finereader 10 erstellt: http://ebooks.zeitr.org/from_abbyy.pdf Sie können den ersten Satz kopieren und einfügen und erhalten dieses (sehr gute) Textergebnis: Der »Bund Deutscher Gymnastik-Vertrie« wurde am 20. November 1955 anläßlich einer Zusammenkunft der...
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Super User. Geschlossen vor 5 Jahren . Ich verwende die Google
Ich habe SimpleOCR verwendet , das eine schöne Benutzeroberfläche zum Korrigieren von Fehlern hat. Leider macht es viele Fehler! (und leidet unter anderen Fehlern und Einschränkungen) Auf der anderen Seite ist Tesseract genauer, hat aber überhaupt keine grafische Benutzeroberfläche. Meine Frage...
Wie können Sie mit Microsoft Office Word 2010 (Beta) einen Scan und eine Zeichenerkennung starten? Ich kann anscheinend keine Option finden, um das Dokument in meinem Scanner direkt in ein 2010 Word-Dokument zu scannen. Ich habe die Installationseinstellungen für Office 2010 (Beta) überprüft und...
Die OCR-Verarbeitung braucht Zeit. Die Verwendung mehrerer CPU-Kerne würde die Verarbeitung beschleunigen. Acrobat 10 war keine Multithread-Anwendung . Wie wäre es mit Acrobat 11? Verwendet 11 standardmäßig OCR mit mehreren CPU-Kernen (falls verfügbar)? Wenn nicht, gibt es Problemumgehungen, z. B....
Ich habe versucht, OCR auf mehreren gescannten Blättern mit Zahlen wie diesem Bild auszuführen (alle mit demselben Hintergrund, nur Ziffern): Aber alle Versuche sind gescheitert! Ich habe Offline-OCRs ausprobiert: gocr, tesseract und einige Online-OCRs; aber alles ist total gescheitert! Was...
Kann eine OCR manchmal zwischen den einzelnen Buchstaben verwechseln? Zum Beispiel wird 't' irgendwann als 'T' oder 'r' als 'R' interpretiert?
Word 2013 kann PDF-Dokumente naiv öffnen und bearbeiten (großes Plus meiner Meinung nach). Gibt es eine Möglichkeit, es auch mit OCR zu erledigen? Auf einem PDF, das hauptsächlich Bilder enthielt, wurden sogar die Teile, die reiner Text waren, als Bilder gespeichert. Gibt es eine Möglichkeit, dies...
Welche Befehlszeilen-OCR-Dienstprogramme funktionieren unter Windows 7 64-Bit?
Ich habe mit der Verwendung von Tesseract für die Texterkennung von PDFs experimentiert und es war meistens erfolgreich, insbesondere mit deutschen Fraktur-Texten (dem alten gotischen Druck), die Tools wie Adobe Acrobat nicht richtig erkennen können. Das Problem ist, dass die Ausgabedateien von...
Ich versuche, Tesseract OCR unter OSX 10.6 zu installieren ... Ich habe es geschafft, Leptonic (durch Herunterladen von src und Installieren mit ./configure; make; sudo make install) scheinbar ohne Probleme zu installieren - aber ich weiß nicht, wie ich es überprüfen soll. Ich habe auch Tesseract...
Angenommen, Sie haben 2 "gescannte" PDF-Dateien. Groß, aber ohne Textebene. Kleiner (mit Bildern von geringerer Qualität), aber mit korrekter Textebene. Beide Dateien enthalten gleiche Bilder, die sich nur durch ihre Komprimierung unterscheiden. Ziel ist es, die gleiche Textebene in das 1. PDF...