Ich habe ein PDF, das aus mehreren hundert Seiten zweisprachigen Textes besteht. Da ich OCR für jede Sprache separat verwenden muss, möchte ich die geraden und ungeraden Seiten erfassen und mit convert
oder zwei separate PDFs erstellen ghostscript
. Die Sprache, die ich zuerst machen möchte, ist auf den ungeraden Seiten. Mit welchem convert
oder ghostscript
Befehl kann ich diese abrufen und in eine neue Datei schreiben?
pdf
imagemagick
ghostscript
ixtmixilix
quelle
quelle
Antworten:
Ich würde es mit pdftk machen .
quelle
pdftk ist leider nicht mehr Open Source. (Das ist eine lange Geschichte.)
Plain gs Motor kann es jedoch:
Ersetzen Sie dann "ungerade" durch "gerade", um gerade Seiten auszuwählen.
quelle
Mit
poppler-utils
Tools können Sie zunächst einzelne Seiten extrahieren mitpdfseparate
:in Stücke wie
piece-1.pdf
,piece-2.pdf
...piece-n.pdf
won
ist die Gesamtzahl der Seiten in Ihrem Original-PDF.Sie können sie dann mit
pdfunite
(und einer Shell, die die Verwendung eines Inkrementwerts mit Bereichserweiterung unterstützt :) verbinden :){<START>..<END>..<INCR>}
:Zum Schluss entfernen Sie die Teile:
quelle
Sie können es mit
pdftocairo
von Poppler tun :für ungerade Seiten und:
für gerade Seiten.
!! Denken Sie nur daran, dass derzeit (pdftocairo v. 0.80.0) ein Fehler vorliegt: https://gitlab.freedesktop.org/poppler/poppler/issues/873 und Optionen für ungerade und gerade Seiten sind verwechselt . ))
quelle