Vielen Dank für alle Antworten, alle. Mit Ihrer Hilfe konnte ich eine Liste von Befehlen zusammenstellen, mit denen die Seitenzahl aus fast allen relevanten Office-Dokumenten extrahiert werden kann:
DOCX / PPTX
unzip -p 'sample.docx' docProps/app.xml | grep -oP '(?<=\<Pages\>).*(?=\</Pages\>)'
unzip -p 'sample.pptx' docProps/app.xml | grep -oP '(?<=\<Slides\>).*(?=\</Slides\>)'
Hinweis : unzip
Kann mit installiert werden sudo apt-get install unzip
.
DOC / PPT
wvSummary sample.doc | grep -oP '(?<=of Pages = )[ A-Za-z0-9]*'
wvSummary sample.ppt | grep -oP '(?<=of Slides = )[ A-Za-z0-9]*'
Hinweis : wvSummary
(Groß- und Kleinschreibung beachten !) Ist Bestandteil des wv
Pakets. Installieren Sie es mit sudo apt-get install wv
.
ODT
unzip -p sample.odt meta.xml | grep -oP '(?<=page-count=")[ A-Za-z0-9]*'
PDF
pdfinfo sample.pdf | grep -oP '(?<=Pages: )[ A-Za-z0-9]*'
Hinweis: pdfinfo
ist Teil von poppler-utils
und sollte auf Ubuntu vorinstalliert sein.
DJVU
djvused -e "n" sample.djvu
Hinweis: djvused
ist Teil des djvulibre-bin
Pakets und kann mit installiert werden sudo apt-get install djvulibre-bin
.
Ich habe keine Möglichkeit gefunden,
odt
Dateiinformationen wiepdfinfo
folgt zu extrahieren , aber Sie können ein schnelles Skript zur Verwendungpdfinfo
mit denodt
Dateien erstellen, jede einzelne ODT-Datei in PDF konvertieren und die konvertierte Datei später löschen, wenn Sie sie nicht verwenden möchten:Ich hoffe, das hat dir geholfen.
quelle