So konvertieren Sie PDF in das eBook-Format

8

Gibt es eine Möglichkeit, ein PDF-Dokument in ein eBook-Format wie epub, azw oder mobi zu konvertieren? Ich suche eine Anwendung, die schnell konvertiert werden kann. Ich habe gerade Kaliber versucht. Nach 10 Minuten sind noch nicht einmal 2% der Umwandlung erreicht. Also bitte kein Kaliber. CLI wird bevorzugt.

ManuelSchneid3r
quelle

Antworten:

6

Sie sollten es versuchen pdftotext(kommt unter Ubuntu im Paket poppler-utils). Es ist ein Befehlszeilenkonverter. Es wird davon ausgegangen, dass das PDF Text enthält und nicht nur aus Bildern besteht.

Wenn die PDF-Datei aus Bildern besteht (ohne OCR-Informationen), müssen Sie sich für eine OCR-Lösung entscheiden, die viel langsamer ist.

Ich habe die OCR-Methode auch erfolgreich für PDF-Text verwendet, der verschlüsselt wurde (indem die einzelnen Zeichen auf einer Seite nichtlinear positioniert wurden). Dann verwenden Sie zB pdftoppm, um einzelne Bilder der Seiten zu erhalten und diese zu OCR.

Anthon
quelle
6

Im Allgemeinen verwende ich Calibre , um aus den verschiedenen Formaten (epub, mobi und pdf) zu konvertieren. Es ist ziemlich einfach, damit zu konvertieren. Hier ist ein Screenshot, es gibt andere und auch ein Video-Tutorial .

Bildschirmfoto

   ss des Kalibers

slm
quelle
3
Welcher Teil von "Bitte kein Kaliber" ist unklar?
mlp
5
Wenn Sie Fragen auf einer SE-Site beantworten, betreuen Sie sowohl das OP als auch alle, die diesen Q & A-Thread in Zukunft finden. Diese Antwort soll alle Grundlagen für diese Personen abdecken. Caliber könnte auch die beste Option, vielleicht die OP hatte eine fehlerhafte Version oder es wurde falsch konfiguriert. Ich habe es Dutzende Male benutzt und es macht einen guten Job beim Konvertieren.
slm
Ich kann die pfd-Datei nicht in ein festes Layout in epub konvertieren. Könnten Sie mir bitte sagen, welche Schritte erforderlich sind, um ein PDF in ein Epub in einem festen Layout zu konvertieren?
Mohan Rathour
1

Ich musste dies einmal für eine PDF-Datei tun, und dies war das Ergebnis (unter Verwendung von pdftohtml von poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Führen Sie den Reißverschluss an Calibre und konvertieren Sie ihn zu EPUB. Filtern Sie alle CSS-Eigenschaften (wie Farben, Schriftarten).

Jede PDF-Datei ist anders - es gibt keine endgültige Lösung. Das Obige hat für einen bestimmten Fall funktioniert - Sie müssen pdftohtml / pdftotext schwach machen und dann die Ausgabe an Ihre Bedürfnisse anpassen.

Wenn dies fehlschlägt und Sie auf OCR zurückgreifen müssen, hatte ich etwas Glück mit Keilschrift. Aber versuchen Sie auch Tesseract, Ocrad, Gocr. Alle diese erfordern jedoch Handarbeit für ein gutes Ergebnis.

Frostschutz
quelle