Extrahieren Sie geradzahlige und ungeradzahlige Seiten eines PDFs in zwei separate PDFs

9

Ich habe ein PDF, das aus mehreren hundert Seiten zweisprachigen Textes besteht. Da ich OCR für jede Sprache separat verwenden muss, möchte ich die geraden und ungeraden Seiten erfassen und mit convertoder zwei separate PDFs erstellen ghostscript. Die Sprache, die ich zuerst machen möchte, ist auf den ungeraden Seiten. Mit welchem convertoder ghostscriptBefehl kann ich diese abrufen und in eine neue Datei schreiben?

pdf imagemagick ghostscript ixtmixilix
quelle

Gibt es einen Grund, warum Sie ImageMagick oder Ghostscript im Gegensatz zu geeigneteren Tools verwenden möchten?

Gilles 'SO - hör auf böse zu sein'

@ Gilles nein. pdftk funktioniert bei mir. danke ...

ixtmixilix

13

Ich würde es mit pdftk machen .

pdftk A=all.pdf cat Aodd output odd.pdf
pdftk A=all.pdf cat Aeven output even.pdf

Gilles 'SO - hör auf böse zu sein'
quelle

3

pdftk ist leider nicht mehr Open Source. (Das ist eine lange Geschichte.)

Plain gs Motor kann es jedoch:

  gs -sDEVICE=pdfwrite     \
     -sPageList=odd         \
     -sOutputFile=odd.pdf   \
     -dBATCH -dNOPAUSE      \
     file.pdf

Ersetzen Sie dann "ungerade" durch "gerade", um gerade Seiten auszuwählen.

Maxime
quelle

2

Mit poppler-utilsTools können Sie zunächst einzelne Seiten extrahieren mit pdfseparate:

pdfseparate infile.pdf piece-%d.pdf

in Stücke wie piece-1.pdf, piece-2.pdf... piece-n.pdfwo nist die Gesamtzahl der Seiten in Ihrem Original-PDF.

Sie können sie dann mit pdfunite(und einer Shell, die die Verwendung eines Inkrementwerts mit Bereichserweiterung unterstützt :) verbinden :) {<START>..<END>..<INCR>}:

pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf

Zum Schluss entfernen Sie die Teile:

rm piece-{1..n}.pdf

don_crissti
quelle

0

Sie können es mit pdftocairovon Poppler tun :

pdftocairo -pdf -e input.pdf output.pdf

für ungerade Seiten und:

pdftocairo -pdf -o input.pdf output.pdf

für gerade Seiten.

!! Denken Sie nur daran, dass derzeit (pdftocairo v. 0.80.0) ein Fehler vorliegt: https://gitlab.freedesktop.org/poppler/poppler/issues/873 und Optionen für ungerade und gerade Seiten sind verwechselt . ))

vstepaniuk
quelle

Extrahieren Sie geradzahlige und ungeradzahlige Seiten eines PDFs in zwei separate PDFs

Antworten: