Ich war am vergangenen Wochenende bei meinen Großeltern. Meine Großmutter zog dieses riesige Buch (~ 1400 Seiten) ihrer Familiengeschichte heraus, das bis etwa 1630 zurückreicht. Ich bin ein riesiger Nerd und dachte, es wäre klug, alle Informationen in einer Datenbank zu speichern und im Internet verfügbar zu machen. Ich kann mit der gesamten Webprogrammierung und den regulären Ausdrücken umgehen und was nicht, aber was ich nicht weiß, ist der beste Weg, um den Text vom Buch zum Computer zu bringen.
Ich weiß, dass eine Art OCR notwendig sein wird. Nach den wenigen Recherchen, die ich durchgeführt habe, scheinen meine Optionen wie folgt zu sein:
- Nehmen Sie mit einer Kamera ein Bild von jeder Seite auf und verarbeiten Sie die Bilder mit der OCR-Software
- Verwenden Sie einen Scanner, um jede Seite zu scannen, und verarbeiten Sie sie dann mit der OCR-Software
- verwendet eine Art von Handgerät, wie diese .
Hat jemand Ideen, wie man dieses Problem am besten angehen kann? Ich möchte das Buch nicht zerstören, da es meines Wissens nicht ersetzt werden kann. Dies ist wahrscheinlich das einzige Mal, dass ich jemals ein großes Buch scannen werde. Ich glaube also nicht, dass ich mehr als 250 US-Dollar für Geräte ausgeben möchte. Ich habe nichts gegen manuellen Aufwand (mir ist klar, dass dies höchstwahrscheinlich Monate dauern wird), aber ich würde gerne die effizienteste Methode finden, die möglich ist.
Anmerkung zum Buch: Es ist erst ungefähr 20 Jahre alt, also in ziemlich gutem Zustand. Es ist monochrom und die Seiten haben noch nicht begonnen, gelb zu werden. Da es jedoch so groß ist, mache ich mir Sorgen über mögliche Schatten, wenn der Text in die Nähe der Bindung gelangt.
Antworten:
Ich kam in dieses auf Lifehacker einige Zeit zurück, und es hat sich einer meiner Top - DIY - Projekte seitdem.
Ersetzen Sie das iPhone durch eine Kamera oder ein Imaging, und Sie erhalten einen Stapel hochauflösender JPEGs, die Sie mit jeder Software, sogar (urks!) MS Office, für OCR bereitstellen können.
Billig. Wirksam. DIY. Eine solche Idee ist nicht zu übertreffen.
BEARBEITEN: In den Kommentaren wurden einige Punkte zu Schatten, Seitenrollen usw. angesprochen. Für alle, die buchstäblich fotokopierte Bibliothekstexte haben, ist dies leicht zu lösen.
Fügen Sie mehrere Lichtquellen hinzu, um das Buch zu beleuchten und die Schatten zu beseitigen.
Wenn Sie das Buch um 90 Grad zu den Seiten neigen, kräuseln Sie sich nicht in Richtung der Bindungen in der Mitte. Es bewahrt auch die Bindung.
Ich werde sehen, ob ich ein Beispiel geben und selbst eines einrichten kann.
BEARBEITEN 2: Beispiel hochgeladen, wie Sie das Buch halten sollten, und beachten Sie auch die Lichtquelle von links.
quelle
Soweit ich weiß, stellt ABBYY die beste OCR-Software her, die jedoch nicht kostenlos ist. Sie sollten versuchen, eine Testversion von ABBYY FineReader zu verwenden . Vielleicht hilft es Ihnen dabei.
quelle
Sie müssen das Bild irgendwie aufnehmen. Es gibt verschiedene Dienste, um dies für Sie zu tun. Zum Korrekturlesen benötigen Sie außerdem jemanden, der mit dem Inhalt des Textes vertraut ist, da OCR noch nicht perfekt ist. Besonders mit etwas Handgeschriebenem.
Andere diskutieren Ihre Frage hier: http://ask.metafilter.com/92506/scan-my-books
Einige Unternehmen erledigen dies für Sie: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Einige freie Software: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
quelle
Für ein großes und für Sie und Ihr Familienprojekt wichtiges Projekt wie dieses ist möglicherweise ein DIY-Buchscanner der richtige Weg, einige Designs sogar Sport-Seitenwender - http://www.diybookscanner.org/ Dieser unterstützt OCR nicht von Haus aus , schießt aber 600 Seiten pro Stunde und Sie können es über OCR ausführen, nachdem http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
quelle
Vielleicht möchten Sie sehen, ob eine Universität in Ihrer Nähe einen ganzen Buchscanner hat, und dann einen Studenten bitten / bestechen, Ihr Buch darin zu stecken.
quelle
Ich würde einen Flachbettscanner empfehlen, der für das Scannen von Büchern ausgelegt ist, oder einen ganzen Buchscanner, wie von Chris erwähnt.
Wenn Sie können, lassen Sie Ihre Bilder in einem TIFF-Format kompilieren, da dies bei Dokumentenverwaltungssystemen dem Industriestandard entspricht.
Für OCR würde ich tesseract OCR empfehlen, da dies der Rahmen ist, den Google für sein Buchprojekt dargelegt hat.
quelle
Während es verlockend klingt, den Prozess zu automatisieren, möchten Sie vielleicht mehr Zeit und Arbeit investieren, da dieses spezielle Buch eine persönliche Angelegenheit ist. OCR erledigt den Großteil, aber Sie müssen Seite für Seite Korrektur lesen und mit dem Original vergleichen. Denken Sie daran, dass die Fehler des Autors Teil des Geschäfts sind. Korrigieren Sie sie nicht (erstellen Sie Fußnoten, wenn Sie dies wünschen). Nehmen Sie sich Zeit, setzen Sie sich nicht unter Druck, das Scannen von Büchern ist Eselarbeit, aber Gründlichkeit zahlt sich aus und Sie erhalten eine schöne digitale Kopie der chronischen Krankheit Ihrer Familie. Viel Glück bei deinem Bestreben :)
quelle
Bei der Arbeit verwenden wir einen Plustek Optibook 3600 -Buchscanner, der etwa 250 US-Dollar kostet .
Es handelt sich im Grunde genommen um einen Standard-Flachbettscanner, bei dem die Glasplatte jedoch bis zum Rand des Scanners reicht, sodass die Buchseite flach auf die Platte gelegt werden kann. Dies beseitigt den Rückenschatten und vermeidet Schäden an Büchern.
quelle