Reduzieren Sie Auflösung, Größe, dpi und Pixelanzahl in PDF-Bildern

0

Ich habe einen Text mit 600 dpi gescannt und es stellte sich heraus, dass er viel mehr war, als ich brauchte, um daraus ein PDF zu erstellen. Ich habe den Text bereits mit OCR erfasst und möchte die OCR im PDF behalten.

Ich möchte die Anzahl der Pixel verringern (dpi? Entschuldigung, ich bin mir nicht sicher, wie ich sie nennen würde, ich bin nicht an Bildverarbeitung gewöhnt), damit ich die PDF-Größe verkleinern kann. Die Bilder sind zu groß, wenn ich das PDF öffne. Es wäre in Ordnung, sie durch Verringern der Pixelanzahl zu verkleinern (so wie es jetzt ist, kann ich die Bilder viel mehr zoomen, als ich brauche).

Wie kann ich die Bildgröße verkleinern, indem ich die Anzahl der Pixel (dpi) reduziere?

Ich möchte das PDF nicht erneut drucken oder scannen, da ich die OCR nicht verlieren möchte. Ich habe versucht, mit Adobe Acrobat Pro DC "Als optimiertes PDF speichern" alle Bilder über 50 dpi auf 50 dpi zu verkleinern. Es hat das PDF vergrößert! (Ich denke, das PDF ist bereits komprimiert, aber ich möchte keine Komprimierung, ich möchte die Anzahl der Pixel / die Auflösung reduzieren.)

Ich bin auf Windows 7, 64-Bit

flen
quelle
Aber jetzt denke ich ... Ist es möglich, die Bildlänge / -auflösung zu reduzieren und die OCR beizubehalten? Es ist vielleicht nicht möglich, da die OCR nicht auf die Textposition im Bild korrelieren würde
Flen
Übrigens ist OCR in der Regel für ca. optimiert. 300 dpi. Wenn Sie wirklich winzigen Text OCR-fähig machen möchten, können Sie mit einer höheren Auflösung scannen. Wenn Sie jedoch normalen Text mit 600 dpi nur für OCR-Zwecke scannen, erhalten Sie nur eine große Datei.
Fixer1234

Antworten:

1

Ich glaube, Sie waren mit Acrobat Pro auf dem richtigen Weg.

Sie müssen jedoch die tatsächliche Bildauflösung ändern. Sie können dies tun, indem Sie manuell eine niedrigauflösende Version erstellen (z. B. 50% B x 50% H) und das vorhandene Bild im PDF durch Ihr neues ersetzen. In diesem Fall müsste auch die Bild-dpi im PDF halbiert werden, um die Größe beizubehalten. Wenn Sie dieselbe Auflösung beibehalten, wird ein Viertel der Größe angezeigt.

Solange sich die Dokumentabmessungen nicht ändern, sollte der OCR-Text denselben Raumkoordinaten zugeordnet werden.

Bearbeiten: Stapelverarbeitung mit Acrobat Pro

Unten sehen Sie, dass Acrobat Pro (XI) die Bildeigenschaften anzeigen kann. 123

  1. Sobald ein Bild Teil eines PDFs ist, erhält es eine physische " Größe " auf dem "virtuellen Papier".
  2. Das ppi (oder dpi, aber das ist mehr für das Drucken von Kontexten) ist eine PDF-Metrik, die das Verhältnis zwischen der physischen Größe und der Anzahl der Pixel angibt . Ich glaube, die Einheit pt / inch auf dem Bild ist falsch. es sollte ppi sein. Ich denke auch, dass es eine schlechte Wortwahl ist, es Auflösung zu nennen.
  3. Die tatsächliche Bildauflösung (Breite in Höhe) ist eine pdf-unabhängige Bildeigenschaft. Sie wirkt sich darauf aus, wie groß die Datei ist und wie stark Sie bei der digitalen Anzeige sinnvoll zoomen können.

Es gibt eine einfache mathematische Beziehung: 2 = 3/1.

  • Was Sie tun möchten, ist 3 zu reduzieren, während 1 konstant bleibt, wodurch implizit 2 um einen entsprechenden Betrag reduziert wird.
  • Die meisten Redakteure verwenden den Wortlaut "change dpi", der praktisch derselbe ist: Ändere 2 und passe 3 implizit so an, dass 1 gleich groß bleibt.
  • Unter der Haube ändert sich jedoch die Bildauflösung am stärksten (3). Ppi / dpi ist lediglich eine Zahl, die im PDF aktualisiert werden muss. so finde ich meinen Wortlaut besser :)

Im Folgenden können Sie eine Art Smart-Filter für Ihre PDF-Datei mit Acrobat Pro ausführen. Einer der verfügbaren voreingestellten Filter ist das Reduzieren der Bild-DPI. Sie können diese Preflight-Option also einfach ausführen oder Ihre eigene erstellen. Sie können die Verkleinerungsoptionen und Bildkomprimierungsmethoden anpassen. Acrobat Pro

Ich denke, Sie können mehrere PDF-Dateien mit dieser Methode in Kombination mit dem Tool "Aktionsassistent" stapelweise verarbeiten.

Jiggunjer
quelle
Gut durchdacht! Aber wie teile ich das Bild und halbiere die dpi, speziell im Stapel für alle Bilder (anstatt manuell für jedes einzelne)? Gibt es vielleicht eine FOSS-Lösung? Oder sogar eine Lösung in Acrobat?
Flen
@flen Ich denke, imagemagick wird oft für die Stapelverarbeitung solcher Dinge verwendet, aber ich habe es nie selbst verwendet.
Jiggunjer
Ich denke, es wäre kein großer Aufwand, mit Bildern in Stapeln zu arbeiten (ich kann mit Acrobat alle Bilder aller PDF-Seiten exportieren). Das Problem wäre, sie später im PDF selbst zu ersetzen. Vielleicht kann ich die JavaScript-API von Acrobat dazu bringen, diese Bilder im Stapel zu ersetzen ... Ich muss es mir ansehen. Aber wenn ich es manuell machen würde, wie würden Sie mir empfehlen, die niedrigauflösende Version zu erstellen und die dpi zu halbieren? Durch die Verwendung von Imagemagick?
Flen
@flen Ich habe mit Informationen zur Verwendung von Acrobat aktualisiert.
Jiggunjer
Danke!!! Es hat perfekt funktioniert! Ich habe den Standard-Preflight "Bildauflösung auf 150 ppi verkleinern (Bitmaps auf 300 ppi)" ausgeführt (in Acrobat DC Pro: unter Extras -> Druckproduktion -> Preflight -> PDF-Korrekturen). Die PDF-Größe wurde auf weniger als ein Drittel der Originalgröße reduziert! Lustige Sache, ich habe zuvor versucht, ein "optimiertes PDF" zu speichern, das auf 150ppi-Bilder verkleinert wird, aber die Größenreduzierung war minimal. Ich weiß nicht, warum "Preflight" und "Optimized PDF" so unterschiedlich waren
flen
0

Sejda ‚s Compress PDF - Tool optimiert die Bilder in einem PDF - Dokument, ändern ihre DPI auf der Grundlage Ihrer Auswahl.

https://www.sejda.com/compress-pdf

Ändern Sie die DPI von Bildern in PDF mit Sejda compress PDF

Es gibt auch eine Desktop-App.

Ich bin einer der Entwickler.

Edi
quelle
Nett! Ich habe es gerade heruntergeladen, ich werde es versuchen
flen
Mein PDF ist fast 100 MB übersteigt dies die 50 MB - Grenze für die freie Desktop - Version, also ist es ein no go ...
Flen