Extrahieren Sie OCR-Text aus Evernote

13

Evernote führt OCR für die Bilder durch, die Sie dort gespeichert haben. Gibt es eine Möglichkeit, das Volltextäquivalent für ein Bild in Evernote abzurufen, oder dient die Texterkennung nur zum Suchen?

Leigh Riffel
quelle

Antworten:

15

Die Evernote-API verfügt über Funktionen zum Abrufen von Text und Rechteck, in denen dieser Text im Bild enthalten ist. Weitere Informationen finden Sie unter http://evernote.com/about/developer/api/evernote-api.htm . Informationen zum Abrufen finden Sie unter "Evernote Recognition Index XML-Format". Das Problem ist, dass sie keine traditionelle OCR ausführen. Ihr OCR-Algorithmus kann unterschiedliche Wörter für ein einzelnes "Wort" auf dem Bild erzeugen. Alles, wofür sie es verwenden, ist die Suche. Dies ist für sie in Ordnung, aber nicht für die Verwendung als Erkennungsmodul. (Obwohl sie Ihnen Gewicht für jedes Wort Alternative geben, können Sie das vielleicht verwenden)

Peter Štibraný
quelle
11

Außerdem entscheidet Evernote anscheinend nicht, dass ein bestimmtes Bild genau einem Wort entspricht - z. B. stellt Evernote nicht fest, dass ein bestimmtes Bild "Hinweis" ist und nicht "fällig". Vielmehr werden beide nachverfolgt, und bei der Suche nach einem der beiden wird dasselbe Bild zurückgegeben. Daher gibt es keine Möglichkeit, ein Volltextäquivalent zu erhalten, da Evernote nicht entscheidet, was der Volltext tatsächlich ist, sondern nur, was er sein könnte.

Mike Dunham
quelle
5

evernote zahlt dem Schöpfer des OCR-Materials eine anständige Summe ODER bezahlte eine anständige Summe, um etwas zusammenzubauen. Daher bezweifle ich wirklich, dass Sie den extrahierten Text erhalten (+ Positionierung auf dem Bild).

(könnte ein Geschäftsmodell sein, um Bilder anderer Leute zu scannen und gute Ergebnisse zu liefern :))

Die Antwort lautet also: Nein.

Akira
quelle
3
Das stimmt nicht. Es gibt eine API, um genau diese Informationen zu erhalten. Siehe meine Antwort.
Peter Štibraný
2

Ich bin mir nicht sicher, wie viel Raffinesse Sie benötigen, aber da ich auch Adobe Acrobat verwende, klicke ich einfach mit der rechten Maustaste auf meinen Evernote-Anhang, um ihn mit Acrobat zu öffnen.

Wählen Sie dann in Acrobat "Dokument | OCR-Texterkennung" und speichern Sie das Dokument als Nur-Text.

Dies funktioniert gut für mich, da ich nur eine gelegentliche OCR-Konvertierung benötige.

Bruce Kessel
quelle
1

Wenn Sie alle Bilder aus Evernote herausholen könnten, könnten Sie die Texterkennung mit Google Text & Tabellen durchführen.

Sie können einen Ordner mit Bildern in Google Text & Tabellen hochladen und in Dokumente konvertieren, die sowohl das Bild als auch den OCR-Text enthalten.

Sie können dann alle diese Dokumente im Batch-Download als Nur-Text herunterladen, wodurch das Bild entfernt wird.

Wenn Sie alle Evernote-Bilder mit einem Hash versehen (z. B. md5), sollte es einfach sein, aus Google Text & Tabellen heruntergeladene Nur-Text-Dateien mit dem Originalbild zu verknüpfen.

Max Masnick
quelle
0

Ich arbeite unter Windows und verwende Adobe Acrobat Pro und Word.

  1. Wenn die Datei nicht als JPG gespeichert ist, klicken Sie in Evernote auf das Augensymbol in der oberen linken Ecke des Bildes, um es in Photo Viewer zu öffnen, und klicken Sie auf Datei> "Kopie erstellen", um sie als JPG zu speichern
  2. Navigieren Sie zu der Bilddatei im Explorer
  3. Klicken Sie mit der rechten Maustaste darauf und wählen Sie „In Adobe PDF konvertieren“ (Datei wird in Acrobat geöffnet).
  4. Klicken Sie auf Datei> Speichern unter, und wählen Sie in der Dropdown-Liste "Dateityp" die Option "Rich Text Format" aus, um die Datei als Rich Text-Datei zu speichern (die Verarbeitung dauert eine Minute).
  5. Navigieren Sie im Explorer zur RTF-Datei, und doppelklicken Sie, um sie in Word zu öffnen
  6. nach Bedarf bearbeiten
Pete Nikolai
quelle
Dies scheint ein Ratschlag zum Extrahieren von Text aus einer bestimmten Bilddatei und nicht aus einem Bild in Evernote zu sein. Können Sie klären, wie dies die ursprüngliche Frage beantwortet, und tun dies in einer Weise, wie es die vorherigen und akzeptierten Antworten nicht tun?
music2myear