Praktische OCR-Lösung zur Konvertierung eines großen Buches in ein digitales Format?

12

Ich war am vergangenen Wochenende bei meinen Großeltern. Meine Großmutter zog dieses riesige Buch (~ 1400 Seiten) ihrer Familiengeschichte heraus, das bis etwa 1630 zurückreicht. Ich bin ein riesiger Nerd und dachte, es wäre klug, alle Informationen in einer Datenbank zu speichern und im Internet verfügbar zu machen. Ich kann mit der gesamten Webprogrammierung und den regulären Ausdrücken umgehen und was nicht, aber was ich nicht weiß, ist der beste Weg, um den Text vom Buch zum Computer zu bringen.

Ich weiß, dass eine Art OCR notwendig sein wird. Nach den wenigen Recherchen, die ich durchgeführt habe, scheinen meine Optionen wie folgt zu sein:

  1. Nehmen Sie mit einer Kamera ein Bild von jeder Seite auf und verarbeiten Sie die Bilder mit der OCR-Software
  2. Verwenden Sie einen Scanner, um jede Seite zu scannen, und verarbeiten Sie sie dann mit der OCR-Software
  3. verwendet eine Art von Handgerät, wie diese .

Hat jemand Ideen, wie man dieses Problem am besten angehen kann? Ich möchte das Buch nicht zerstören, da es meines Wissens nicht ersetzt werden kann. Dies ist wahrscheinlich das einzige Mal, dass ich jemals ein großes Buch scannen werde. Ich glaube also nicht, dass ich mehr als 250 US-Dollar für Geräte ausgeben möchte. Ich habe nichts gegen manuellen Aufwand (mir ist klar, dass dies höchstwahrscheinlich Monate dauern wird), aber ich würde gerne die effizienteste Methode finden, die möglich ist.

Anmerkung zum Buch: Es ist erst ungefähr 20 Jahre alt, also in ziemlich gutem Zustand. Es ist monochrom und die Seiten haben noch nicht begonnen, gelb zu werden. Da es jedoch so groß ist, mache ich mir Sorgen über mögliche Schatten, wenn der Text in die Nähe der Bindung gelangt.


quelle
1
Nebenbei bemerkt, wenn das Buch erst 20 Jahre alt ist und die Informationen bis ins 17. Jahrhundert zurückreichen, wo befindet sich das Originalmaterial? Das könnte auch schön zu erfassen sein!
Craig
Ja, das wäre auch cool. Ich werde sehen, ob ich den ursprünglichen Autor finden kann.

Antworten:

8

Ich kam in dieses auf Lifehacker einige Zeit zurück, und es hat sich einer meiner Top - DIY - Projekte seitdem.

Geben Sie hier die Bildbeschreibung ein

Ersetzen Sie das iPhone durch eine Kamera oder ein Imaging, und Sie erhalten einen Stapel hochauflösender JPEGs, die Sie mit jeder Software, sogar (urks!) MS Office, für OCR bereitstellen können.

Billig. Wirksam. DIY. Eine solche Idee ist nicht zu übertreffen.

BEARBEITEN: In den Kommentaren wurden einige Punkte zu Schatten, Seitenrollen usw. angesprochen. Für alle, die buchstäblich fotokopierte Bibliothekstexte haben, ist dies leicht zu lösen.

Fügen Sie mehrere Lichtquellen hinzu, um das Buch zu beleuchten und die Schatten zu beseitigen.

Wenn Sie das Buch um 90 Grad zu den Seiten neigen, kräuseln Sie sich nicht in Richtung der Bindungen in der Mitte. Es bewahrt auch die Bindung.

Ich werde sehen, ob ich ein Beispiel geben und selbst eines einrichten kann.

BEARBEITEN 2: Beispiel hochgeladen, wie Sie das Buch halten sollten, und beachten Sie auch die Lichtquelle von links.

Geben Sie hier die Bildbeschreibung ein

Caliban
quelle
Das ist so cool! Ich wünschte, ich könnte das tun :)
Alex
Dazu benötigen Sie jedoch eine echte Kamera und eine gute Qualität. Andernfalls erhalten Sie ein Bild, das Sie nicht ausnutzen können, insbesondere aus einem sehr alten Buch. Es ist also alles andere als billig.
Gnoupi
Sehr interessant. Ich frage mich, wie das mit einem Buch funktionieren würde, wenn man bedenkt, dass es wahrscheinlich Schatten zwischen den Seiten geben würde.
Wenn die Seiten gebogen sind oder Schatten aufweisen, kann die OCR-Software die Buchstaben nicht erkennen.
Alex
Fügen Sie mehrere Lichtquellen hinzu, um das Buch zu beleuchten und die Schatten zu beseitigen. Neigen Sie das Buch um 90 Grad, damit sich die Seiten nicht in Richtung der Bindungen in der Mitte kräuseln. Es ist einfach gesunder Menschenverstand, wir machen das die ganze Zeit im College und machen Fotos von Bibliothekstexten.
Caliban
3

Soweit ich weiß, stellt ABBYY die beste OCR-Software her, die jedoch nicht kostenlos ist. Sie sollten versuchen, eine Testversion von ABBYY FineReader zu verwenden . Vielleicht hilft es Ihnen dabei.

Alex
quelle
1

Sie müssen das Bild irgendwie aufnehmen. Es gibt verschiedene Dienste, um dies für Sie zu tun. Zum Korrekturlesen benötigen Sie außerdem jemanden, der mit dem Inhalt des Textes vertraut ist, da OCR noch nicht perfekt ist. Besonders mit etwas Handgeschriebenem.

Andere diskutieren Ihre Frage hier: http://ask.metafilter.com/92506/scan-my-books

Einige Unternehmen erledigen dies für Sie: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Einige freie Software: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

NickSentowski
quelle
0

Vielleicht möchten Sie sehen, ob eine Universität in Ihrer Nähe einen ganzen Buchscanner hat, und dann einen Studenten bitten / bestechen, Ihr Buch darin zu stecken.

Chris Nava
quelle
0

Ich würde einen Flachbettscanner empfehlen, der für das Scannen von Büchern ausgelegt ist, oder einen ganzen Buchscanner, wie von Chris erwähnt.

Wenn Sie können, lassen Sie Ihre Bilder in einem TIFF-Format kompilieren, da dies bei Dokumentenverwaltungssystemen dem Industriestandard entspricht.

Für OCR würde ich tesseract OCR empfehlen, da dies der Rahmen ist, den Google für sein Buchprojekt dargelegt hat.

Greg Buehler
quelle
0

Während es verlockend klingt, den Prozess zu automatisieren, möchten Sie vielleicht mehr Zeit und Arbeit investieren, da dieses spezielle Buch eine persönliche Angelegenheit ist. OCR erledigt den Großteil, aber Sie müssen Seite für Seite Korrektur lesen und mit dem Original vergleichen. Denken Sie daran, dass die Fehler des Autors Teil des Geschäfts sind. Korrigieren Sie sie nicht (erstellen Sie Fußnoten, wenn Sie dies wünschen). Nehmen Sie sich Zeit, setzen Sie sich nicht unter Druck, das Scannen von Büchern ist Eselarbeit, aber Gründlichkeit zahlt sich aus und Sie erhalten eine schöne digitale Kopie der chronischen Krankheit Ihrer Familie. Viel Glück bei deinem Bestreben :)


quelle
Eigentlich ist das ein wirklich guter Punkt. Ich hatte nicht daran gedacht, den Originalinhalt des Buches digital verfügbar zu machen, aber solange ich ihn habe, kann ich auch eine PDF-Version erstellen.
warum PDF? denke HTML. Sie können auch die ursprünglichen Scans beibehalten, obwohl Sie am Ende eine enorme Datenmenge haben.
Meine Idee war es, alle Geburts- / Abstammungsinformationen in einer Datenbank zu haben, damit ich ein Web-Frontend erstellen kann, das das Navigieren / Suchen / Aktualisieren erleichtert. Ich habe vor, Tippfehler aus dieser Version herauszuarbeiten. Außerdem habe ich einige Cousins, die nicht da sind, und es wäre schön, sie hinzuzufügen. Ich dachte an PDF, weil es schön wäre, etwas zu haben, das wie das Originalbuch mit den ursprünglichen Seitenzahlen und so intakt aussieht. Diese Version würde ich in Ruhe lassen und alle Tippfehler aus dem Buch behalten.
0

Bei der Arbeit verwenden wir einen Plustek Optibook 3600 -Buchscanner, der etwa 250 US-Dollar kostet .
Es handelt sich im Grunde genommen um einen Standard-Flachbettscanner, bei dem die Glasplatte jedoch bis zum Rand des Scanners reicht, sodass die Buchseite flach auf die Platte gelegt werden kann. Dies beseitigt den Rückenschatten und vermeidet Schäden an Büchern.

Geben Sie hier die Bildbeschreibung ein

Pelme
quelle
Haben Sie jemals versucht, das mit einem wirklich dicken Buch zu verwenden? Es ist wie 3 cm dick.
Wenn Sie es um 90 ° öffnen können, während die Seite einigermaßen flach ist, sollte es in Ordnung sein. Probieren Sie eine Tischkante an.
Pelms