Suchen und Ersetzen durch eine PDF-Datei über die Befehlszeile

8

Ich möchte einen bestimmten Text oder ein bestimmtes Wort aus einer PDF-Datei suchen und durch einen anderen Text ersetzen und eine neue PDF-Datei über die Befehlszeile erstellen. Ich habe versucht , mit sed, find, awkSerie auf Textdateien , aber ich mag als PDF - Datei erhalten. Welches Befehlszeilenprogramm hilft mir?

denny
quelle

Antworten:

15

Verwenden Sie pdftkdiese Option, um die Datei zu dekomprimieren, zu bearbeiten sedund schließlich erneut zu komprimieren.

pdftk input.pdf output uncompressed.pdf uncompress
sed -i 's/foo/bar/g' uncompressed.pdf
# uncompressed.pdf now has all the changes
pdftk uncompressed.pdf output changed.pdf compress

Natürlich kann kein Text in Bildern so geändert werden.

Fiximan
quelle
6
@denny Anstatt "Danke" -Kommentare zu schreiben, akzeptieren Sie bitte die Antwort, die Ihnen am meisten geholfen hat, indem Sie auf die graue runde Check-Schaltfläche links klicken. Danke und willkommen bei Ask Ubuntu. Bitte beachten Sie, dass Sie an der kleinen Tour teilnehmen können , um mehr über die Funktionsweise unserer Website zu erfahren.
Byte Commander
Selbst unkomprimierte PDF-Dateien erzeugen nicht genau den Text, den Sie auf dem Bildschirm sehen. Ich musste von Acrobat Pro nach Microsoft Word exportieren (Tool> Exportieren), das docx entpacken und dann direkt in document.xml suchen und ersetzen.
So
0

Eine mögliche Lösung könnte so aussehen ...

Sie können PDF-Dateien mit einigen Tools aus dem Paket poppler-utils in reine Textdateien konvertieren .

Es kann installiert werden über:

sudo apt-get install poppler-utils

Konvertieren Sie eine PDF-Datei in eine Textdatei

pdftotext /home/USER/Desktop/test.pdf /home/USER/Desktop/test.txt

Jetzt können Sie Ihre PDF-Datei bearbeiten und ersetzen.

Danach können Sie es mit einem Paket namens cups-pdf OR text2pdf zurückkonvertieren .

Könnte nicht die perfekte Lösung sein, sollte aber seine Arbeit machen.

Hoffe das hilft!

teufelsfrucht
quelle
Funktioniert nur für PDF-Dateien. Es werden jedoch höchstwahrscheinlich alle Formatierungen ignoriert und Bilder ignoriert (also entfernt).
Fiximan