Ich habe hier eine PDF-Datei mit Karten des Gebäudes, in dem ich arbeite:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Die ursprünglichen Quelldateien sind verloren gegangen, und ich wurde gebeten, die Kartenbilder zu extrahieren, vorzugsweise ohne den Text und die Symbole, die darüber gelegt wurden. Dies hat sich als ärgerlich schwierig erwiesen.
Bisher habe ich folgende GUI-Programme ausprobiert:
- Adobe Reader: Mit dieser Option kann ich Text auswählen, jedoch nicht die Hintergrundbilder
- FoxIt PDF Viewer: Mit dieser Option kann ich Text auswählen, jedoch nicht die Hintergrundbilder
- XPDF unter Ubuntu 10.10: Ermöglicht die Auswahl von Text, jedoch nicht der Hintergrundbilder
Und auch die folgenden Kommandozeilenprogramme:
- pdfimages: Extrahiert die Symbole für Badezimmer, aber nicht die Hintergrundbilder
- pdftohtml: Entspricht pdfimages und erstellt ein schlecht markiertes HTML-Dokument
- pdfextract: wie pdfimages
- konvertieren: erfolgreich gespeicherte Bilder, aber mit dem darin eingebrannten Text
Ich habe sogar versucht, die PDF-Datei manuell in einem Texteditor zu öffnen und die Stream-Objekte zu extrahieren, indem ich sie in eine neue Datei einfügte und sie mit der Erweiterung .jpg, .png oder .bmp speicherte (jeweils nacheinander). Wenn man bedenkt, wie wenig ich über die interne Struktur von PDF-Dateien weiß, ist es keine Überraschung, dass dies nicht funktioniert hat.
Also ... gibt es eine Möglichkeit, die Kartenbilder von diesem Ding abzurufen, ohne auch den Text und die Symbole zu erhalten?
quelle
qpdf
, um die Binärteile so weit wie möglich in ASCII zu konvertieren. (2) Verwenden Sie einen Texteditor, um den gesamten Text unsichtbar zu machen, den ich nicht auf dem Bildschirm oder in Ausdrucken sehen möchte (dies kann einfach und ohne Beschädigung der XRef-Tabelle durch Umschalten der unsichtbaren Flagge erreicht werden). (3) Destillieren Sie das Ergebnis erneut mit Ghostscript, um die Größe so gering wie möglich zu halten. - Leider kann Ihre Datei nicht mehr heruntergeladen werden, um die Vorgehensweise zu demonstrieren ...Antworten:
Sie können die XPDF-Bibliothek von http://www.foolabs.com/xpdf/download.html für Linux und Windows herunterladen . Dann laufen
pdfimages -j input.pdf output
und Sie sollten erhaltenoutput-000.jpg
,output-001.jpg
usw. Auch Besuche http://linuxcommand.org/man_pages/pdfimages1.html für weitere Nutzungsmöglichkeiten.quelle
Ok, nachdem ich 5 Minuten damit herumgespielt habe, ist meine Analyse, dass PDF noch seltsamer ist, als ich ursprünglich gedacht habe, und das sagt etwas aus.
Sie sind sich nicht sicher, wie hoch Ihr Budget ist, aber mit Acrobat Pro Extended 9 können Sie Folgendes verwenden:
A. Werkzeuge, Erweiterte Bearbeitung, Nachbesserungs-Textwerkzeug
B. Werkzeuge, Erweiterte Bearbeitung, Ausbesserungsobjektwerkzeug
- Wählen Sie das Objekt aus (Sie können die meisten, aber nicht alle erhalten (z. B. können die Symbole der Schülercomputer nicht ausgewählt werden), und löschen Sie sie
So sah Seite 1 nach einer schnellen Bereinigung aus: http://dl.dropbox.com/u/7434256/p1test.pdf
quelle
/AA
Operators (für die automatische Aktion ), die es zu einer potenziell gefährlichen PDF-Datei macht. Ghostscript konnte es auf 60 kByte reduzieren, ohne den sichtbaren Inhalt zu verlieren. (Die in der Datei enthaltenen Metadaten verteilen sich auf 17 verschiedene Objekte. Die Metadaten legen außerdem nahe, dass es seit ihrer Erstellung am 18.01.2011 17 verschiedene Revisionen / Änderungen dieser Datei gibt.)Nehmen Sie das von Craig H erstellte PDF und optimieren Sie es ein wenig, indem Sie es über Ghostscript ausführen. Unter Windows lautet die Befehlszeile:
Unter Linux / Unix / Mac OS X gehen Sie wie folgt vor:
Dadurch wird die Größe der Datei von 3.000 kByte auf etwa 60 kByte verringert, ohne dass Inhalte verloren gehen. Dann sollte der Import in Inkscape (oder InDesign, Illustrator, ...) viel schneller sein ....
quelle
... Sie könnten Photoshop ausprobieren. Es liest PDFs und es ist 'möglich', dass es aus PS stammt und möglicherweise noch die Ebenen hat ... aber es ist eine sehr lange Sicht.
quelle
In einer Linux-Umgebung habe ich pdfmod verwendet , um alle Bilder auf einmal zu extrahieren. Siehe https://wiki.gnome.org/Apps/PdfMod oder für Ubuntu-Benutzer https://apps.ubuntu.com/cat/applications/pdfmod/
Zum Herunterladen und Installieren in Ubuntu reicht die Eingabe aus
sudo apt-get install pdfmod
.pdfmod
das Dashboard oder das Befehlszeilenterminal ein)export n images
mit n der entsprechenden Nummer). Sie können auf diesen Befehl auch zugreifen, indem Sie mit der Maus über die Auswahl fahren und das lokale Menü aktivieren (Rechtsklick für Rechtshänder).Hoffe das hilft.
quelle
Öffnen Sie das Dokument auf Ihrem Bildschirm, vergrößern Sie das Bild, um es so groß wie möglich zu machen, aber alles ist noch sichtbar. Drücken Sie alt + prnt scrn (oder das Äquivalent auf Ihrem Betriebssystem) und es sollte ein Screenshot des Programms gemacht werden. Öffnen Sie nun Farbe oder Ihren bevorzugten Bildeditor (Photoshop, Gimp usw.), fügen Sie das Bild ein und schneiden Sie alles aus, was Sie nicht möchten.
quelle