Selbsthosting eines Recaptcha-ähnlichen Systems zur Digitalisierung meiner hochgeladenen Bücher

7

Aus Wikipedia

reCAPTCHA ist ein System, das CAPTCHA verwendet, um den Text von Büchern zu digitalisieren und Websites vor Bots zu schützen

Ich habe viele gescannte Dokumente, die ich konvertieren möchte, und möchte ein Captcha auf meiner Website einführen. Warum also nicht zwei Fliegen mit einer Klappe schlagen?

Das reCAPTCHA-Projekt hat seine eigene Agenda, konzentriert sich jedoch auf Archive der New York Times und Bücher von Google Books.

Gibt es ein ähnliches Projekt, das ich hosten und damit die digitalisierten Bücher / Dokumente diktieren könnte?

Craig
quelle
Diese Frage ist konstruktiv, aber nicht thematisch. Es ist ein genaues Duplikat einer Frage zum Stapelüberlauf, die vor unserer Website erstellt wurde. Siehe diese Frage, stackoverflow.com/questions/244179/…
Ben Hoffman
1
@RandomBen Ich denke, Craig sucht nach einer Möglichkeit, ein CAPTCHA-ähnliches System zum Digitalisieren von Büchern zu verwenden, nicht zur Benutzereingabe (wie in dieser SO-Frage).
Nick
3
@Craig Mein Rat wäre, Googles eigenes optisches Zeichenerkennungssystem zu verwenden, um Ihre Bilder hochzuladen und sie im Handumdrehen in Text umzuwandeln ( Demo und weitere Informationen ). Ein selbst gehostetes CAPTCHA-System wäre zu langsam, um ganze Bücher zu konvertieren. reCAPTCHA wird nur verwendet, um mit Menschen unbekannte Wörter zu konvertieren, nicht ganze Dokumente.
Nick
2
@paulmorriss Die Seite, auf die Sie verlinkt haben, besagt, dass die Bücher zuerst mit OCR gescannt und digitalisiert werden. "reCAPTCHA verbessert den Prozess der Digitalisierung von Büchern, indem Wörter, die von Computern nicht gelesen werden können, in Form von CAPTCHAs an das Web gesendet werden, damit Menschen sie entschlüsseln können. "" Ich denke, der springende Punkt ist, Wörter zu übersetzen, mit denen OCR nicht umgehen kann.
Nick
1
@Craig - Ich habe die Frage erneut geöffnet. Dies ist vielleicht nicht die beste Seite dafür, aber ich bin mir nicht sicher, welche an dieser Stelle ist.
Ben Hoffman

Antworten:

1

Verwenden Sie die OCR von Google , um diese Bücher zu digitalisieren. Für die Verwendung Ihrer eigenen Bücher zum Übersetzen steht derzeit keine Software von Drittanbietern zur Verfügung. Als zusätzliche Begründung hierzu ein Auszug aus der CAPTCHA-Site;

Soll ich mein eigenes CAPTCHA machen?

Im Allgemeinen ist es eine schlechte Idee, ein eigenes CAPTCHA-Skript zu erstellen (z. B. mit PHP, Perl oder .Net), da es viele Fehlermodi gibt. Wir empfehlen die Verwendung einer bewährten Implementierung wie reCAPTCHA.

Außerdem sprach er auf einer TED-Konferenz zum Thema reCAPTCHA. Wenn Sie tatsächlich beabsichtigen, Ihre eigenen zu machen, können Sie auch studieren.

Christopher
quelle
Der von Ihnen angegebene Google OCR-Link enthält keine Informationen mehr zu OCR. Haben Sie einen aktualisierten Link?
Binse