Gibt es gute Open-Source-Handschrift-OCR-Programme?

16

Der Titel fragt alles. Ich habe eine Dateneingabeaufgabe vor mir, von der ich nicht allzu begeistert bin: 50-100 Seiten handgeschriebene Ab- / Anmeldeprotokolle.

Das Format der Protokolle kann hilfreich sein. Die Seiten sind in klar umrissene Zeilen und Spalten unterteilt (13r x 6c mit einer zusätzlichen typisierten Kopfzeile). Eine weitere Hilfe ist, dass drei Spalten sich auf Datum / Uhrzeit beziehen (Datum, Uhrzeit, Uhrzeit ein). Außerdem sind die Daten in zwei Spalten (Ressource und Name) mehr oder weniger nummeriert, sodass beispielsweise der Name "Smith" in der Namensspalte immer wieder mit derselben Handschrift angezeigt wird. Die letzte Spalte, "Notizen", ist in freier Form, aber wenn ich die vorherigen 6 Spalten automatisieren könnte, hätte ich nichts dagegen, Notizen von Hand einzugeben.

Irgendwelche Vorschläge? (Neben "Beginnen Sie mit dem Tippen".)

PS Wenn es eine bessere SE-Site gibt, die das fragt, lass es mich wissen, ich frage dort.

psoft
quelle
1
Können Sie einen Beispielscan des Protokolls posten?
Martin Thompson
1
Kümmern Sie sich nicht um Captricity - sie fragen nach Ihrer E-Mail und senden ua "Link-E-Mail" ohne Link.
Und das passiert, wenn Sie mit den Begriffen «Open Source» und «Free-Source» verwechselt werden ... dass Sie ein Unternehmen haben, das versucht, sich auf dem Markt einen Vorteil zu verschaffen, und der Meinung ist, dass «Open Source» gleich «Bad» ist ».
Joan

Antworten:

6

Tesseract ist wahrscheinlich die beste und am weitesten verbreitete OCR-Bibliothek.

Es wurde mit Handschrift getestet und ist nicht schlecht - obwohl Handschrift nicht leicht zu lesen ist. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
quelle
Tesseract ist auf jeden Fall eine gute Option, wenn Sie sich für Free / Open Source interessieren. Es ist nicht 100%, liefert aber die meiste Zeit ziemlich genaue Ergebnisse.
Kapitän Kenpachi
4

Wenn Sie weniger als 10 Seiten haben, kann Captricity dies kostenlos tun.

Es gibt keine guten Open-Source-Lösungen für das, wonach Sie suchen. Bezahlte Lösungen kosten viel für die Lizenzierung. Dies basiert auf unserer Erfahrung beim Aufbau eines Handschrifterkennungsdienstes bei Captricity . Wir verwenden Tesseract in der Produktion, aber nur als Abstimmung, die mit menschlicher Intelligenz (Crowdsourcing) kombiniert wird, um ein hohes Qualitätsniveau zu liefern.

Ich hoffe, das hilft!

kuang
quelle