Text aus dem PDF entfernen

14

Ich habe eine PDF-Datei mit Text auf jeder Seite, die ich entfernen möchte.

Der Text wird von einem regulären Ausdruck abgeglichen und ich denke, er kommt in einem Block des PDFs.

Ich habe pdfedit verwendet, um den Text über die GUI auszuwählen und zu löschen, aber ich habe nach einer Möglichkeit gesucht, dies über das Terminal zu tun.

DrYap
quelle
pdfedit-tools existiert, wissen Sie
mirh

Antworten:

10

Sie können pdftk ausprobieren , aber es funktioniert nur zu einem Bruchteil der Zeit, da (glaube ich) ein Problem mit Schriftarten vorliegt .

Das funktioniert so: Zuerst müssen Sie die PDF-Datei dekomprimieren.

  pdftk myfile.pdf output unc.pdf uncompress

dann ändern Sie es mit

  sed 's/oldstring/newstring/g' < unc.pdf > mod_unc.pdf

Zuletzt komprimieren Sie es mit

 pdftk mod_unc.pdf output myfile_modified.pdf compress

Ich habe mit diesem Befehl nur mäßigen Erfolg gehabt, in dem Sinne, dass er manchmal funktioniert, manchmal nicht, je nach Laune.

MariusMatutiae
quelle
Ich habe es ausprobiert, aber die Dekomprimierung hat den größten Teil des Textes in Weiß umgewandelt, das nie wiederhergestellt wurde. Lustigerweise war der einzige Text, der nicht weiß war, was ich versuche loszuwerden !!! Danke für den Vorschlag.
DrYap
2
Man kann auch verwenden qpdf: qpdf --stream-data=uncompress myfile.pdf unc.pdf.
Eugene Pakhomov
Marius, pdftk ist leider kein Open Source mehr. - Kennen Sie eine andere Lösung? Vielen Dank.
Maxim
@ Maxim Ich habe es immer noch in meinen Debian- (und Ubuntu) Repos, was bedeutet, dass die Version, die Linux-Benutzern zur Verfügung steht, sicherlich Open Source ist. Warum sagst du, dass es nicht mehr FOSS ist? Es gibt kostenlose und kostenpflichtige Versionen, jedoch für Benutzer von Windows und MacOS.
Marius Matutiae
@MariusMatutiae Marius - Ich Tool die folgenden aus der Fedora-Projekt-Mailingliste : Jochen Schmitt 2014-03-04 Because pdftk depends on a gcj-feature which no more supported in Fedora I have retired this package for F20+. So no new version of pdftk will be available on Feodra. whole discussion: https://lists.fedoraproject.org/pipermail/users/2014-December/thread.html#455977 The problem is that libgcj does not exist on F21. So, we can not run pdftk unless we go back to F20-
Maxim
1

Unter Windows (möglicherweise einer virtuellen Maschine) können Sie den PDF-XChange-Editor https://www.tracker-software.com/product/downloads/enduser/pdf-xchange-editor installieren

In der kostenlosen Version kann Text entfernt (aber kein Text hinzugefügt) werden, ohne ein Wasserzeichen hinzuzufügen (der Software, auch die Software sagt es Ihnen).

Ich musste mehrere Texte entfernen, war daher sedzu zeitaufwändig / anstrengend und sedarbeitete nicht mit Umlauten.

Quelle: https://de.wikipedia.org/wiki/Benutzer:JoKalliauer/PDF

JoKalliauer
quelle
-4

Sie können beliebige PDF-Editoren verwenden. Nitro PDF ist ein gutes Werkzeug zum Bearbeiten von PDF. Es gibt auch so viele kostenlose Tools. Hiermit können Sie Text hinzufügen oder entfernen.

http://www.nitropdf.com/free-pdf-software

PDFEdit ist eine gute Option für Linux. Lesen Sie diesen Link, um zu erfahren, wie Sie installieren. cyberciti.biz/tips/open-source-linux-pdf-writer.html

Sareeshmnair
quelle
2
Das OP ist unter Linux und sie sagten, dass sie bereits PDFEdit verwendet haben. Bitte lesen Sie die Frage, bevor Sie eine Antwort veröffentlichen.
Slhck