Der Titel fragt alles. Ich habe eine Dateneingabeaufgabe vor mir, von der ich nicht allzu begeistert bin: 50-100 Seiten handgeschriebene Ab- / Anmeldeprotokolle.
Das Format der Protokolle kann hilfreich sein. Die Seiten sind in klar umrissene Zeilen und Spalten unterteilt (13r x 6c mit einer zusätzlichen typisierten Kopfzeile). Eine weitere Hilfe ist, dass drei Spalten sich auf Datum / Uhrzeit beziehen (Datum, Uhrzeit, Uhrzeit ein). Außerdem sind die Daten in zwei Spalten (Ressource und Name) mehr oder weniger nummeriert, sodass beispielsweise der Name "Smith" in der Namensspalte immer wieder mit derselben Handschrift angezeigt wird. Die letzte Spalte, "Notizen", ist in freier Form, aber wenn ich die vorherigen 6 Spalten automatisieren könnte, hätte ich nichts dagegen, Notizen von Hand einzugeben.
Irgendwelche Vorschläge? (Neben "Beginnen Sie mit dem Tippen".)
PS Wenn es eine bessere SE-Site gibt, die das fragt, lass es mich wissen, ich frage dort.
Antworten:
Tesseract ist wahrscheinlich die beste und am weitesten verbreitete OCR-Bibliothek.
Es wurde mit Handschrift getestet und ist nicht schlecht - obwohl Handschrift nicht leicht zu lesen ist. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
quelle
Wenn Sie weniger als 10 Seiten haben, kann Captricity dies kostenlos tun.Es gibt keine guten Open-Source-Lösungen für das, wonach Sie suchen. Bezahlte Lösungen kosten viel für die Lizenzierung. Dies basiert auf unserer Erfahrung beim Aufbau eines Handschrifterkennungsdienstes bei Captricity . Wir verwenden Tesseract in der Produktion, aber nur als Abstimmung, die mit menschlicher Intelligenz (Crowdsourcing) kombiniert wird, um ein hohes Qualitätsniveau zu liefern.
Ich hoffe, das hilft!
quelle