Wie kann ich PDFs, die von gescannten Seiten * automatisch * erstellt wurden, korrigieren und zuschneiden? [Duplikat]

13

Mögliches Duplikat: Mit
welcher kostenlosen Software kann ich gescannte Bilder korrigieren

Ich habe mehrere PDFs, die aus Buchseiten-Scans bestehen. Die Scans werden von jeweils zwei Seiten gleichzeitig durchgeführt. Einige dieser Scans sind verzerrt, sodass der Text leicht geneigt erscheint.

Ich bin auf der Suche nach einem Tool, mit dem ich die Scans automatisch optimieren kann, ohne die Lesbarkeit zu beeinträchtigen. Ich habe festgestellt, dass die GPL-Software Briss die Scans zuschneidet, um ein Seitenverhältnis von 1: 1 anstelle von 2: 1 zu erzielen, aber ich habe kein Tool, um die Seiten zu korrigieren.

Ich bin auf unpaper gestoßen , ein anderes Open-Source-Tool, das perfekt für das zu sein scheint, was ich tun möchte, aber dieses Tool ist nur Linux und funktioniert nicht direkt bei PDF-Dateien.

Jeder Hinweis wird geschätzt.

Pietro M.
quelle
1
@ Random: Warum wurde diese Frage geschlossen? Warum sollte dieses Thema "Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen" anregen?!?
Kurt Pfeifle
1
"auf der Suche nach einem Tool" ist so ziemlich eine Abfrage nach Diensten, die zu dem nicht konstruktiven Schlussgrund @kur
random führt
1
@random: Diese Frage veranlasste mich, Nachforschungen zu diesem Thema anzustellen, und ich fand einige interessante Optionen, um sie zu verfolgen. Am interessantesten ist die Verwendung von ImageMagick, und dies scheint überraschend einfach zu sein. Leider erlaubt mir Ihr Abschluss nicht, meine Antwort zu posten.
Kurt Pfeifle
@random: Ich habe die Frage jetzt ein bisschen bearbeitet. Hoffentlich entspricht es jetzt mehr Ihrem Gefühl von "Konstruktivität".
Kurt Pfeifle
@random: Ok, das Schließen als Duplikat ist in diesem Fall für mich akzeptabler.
Kurt Pfeifle

Antworten:

9

Schauen Sie sich deskew an . Es ist ein Kommandozeilen-Tool. Der Download * zip scheint Binärdateien für Windows, MacOSX und Linux zu enthalten.

Lizenz ist MPL (Mozilla) oder LPGL (GNU), was auch immer Sie bevorzugen.

Der einzige Nachteil für Sie scheint zu sein, dass keine PDFs, sondern nur PNG- und TIFF-Bilder (AFAICS) verwendet werden. Das heißt, Sie müssen einen Workflow von s.th. einrichten. mögen:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Ich habe es (noch) nicht selbst getestet. Ich bin kürzlich auf die Website gestoßen und habe sie mit einem Lesezeichen versehen.

Kurt Pfeifle
quelle
deskewIn meinem Testlauf ist es mir zwar gelungen, die rotationsbedingte Verzerrung zu korrigieren, aber leider wurde eine dünne graue Linie an der Position des ursprünglichen Bildrandes eingefügt. Um den grauen Rand loszuwerden, habe ich die Bilder mit der -extentOption beschnitten mogrify. Ich habe nur unter OS X getestet, möglicherweise ist dieses Fehlverhalten plattformspezifisch.
Stefan Schmidt
deskewfunktioniert wirklich gut. Mein Arbeitsablauf sieht folgendermaßen aus : pdfimages-all <pdf> my_imagesjbig2 -s -p -v my_images* > outputpdf.py output > deskewed.pdfWenn Sie schwarze Ränder (Ergebnis des Deskewing-Vorgangs) stören, ist möglicherweise eine Verarbeitung mit imagemagick erforderlich, wie von @StefanSchmidt
Mr. Tao
5

Oh, lassen Sie mich noch eine Antwort hinzufügen. Ich habe mich gerade an netpbm erinnert . Ich habe es seit Jahren nicht mehr benutzt, aber ich denke, ich sollte einen neuen Blick darauf werfen ...

netpbm ist ein sehr leistungsfähiges Toolkit für die Befehlszeile zur Bearbeitung von Grafiken. Es werden fast 300 verschiedene Werkzeuge ausgeliefert. Es enthält Konverter für ca. 100 Grafikformate.

Und es hat auch ein Kommandozeilen-Tool, das Bilder drehen kann:

pnmrotate

Und es hat ein anderes Werkzeug, das versucht, den Winkel von gedrehten Bildern zu erkennen:

pamtilt

pamtiltGibt eine schwebende Zahl seiner Vermutung der Bilddrehung zurück. Das automatische De-Skewing von Bildern sollte also in Reichweite sein. Dazu könnte ein Shell-Skript geschrieben werden. Es würde verschiedene Schritte erfordern:

  1. Konvertieren Sie PDF-Seiten mit Hilfe von Ghostscript in ein für Netpbm geeignetes Bildformat.
  2. Verwenden Sie pamtiltdiese Option, um den Neigungswinkel des Bildes automatisch zu ermitteln.
  3. Verwenden Sie pnmrotatediese Option, um das Bild zu verzerren.
  4. Konvertieren Sie das Bild erneut in PDF.

Wenn Sie mir Zugriff auf ein kleines Beispiel Ihrer PDF-Dateien gewähren, könnte ich versuchen, ein Shell-Skript zu entwickeln, um diese Aufgabe zu erfüllen.


(Ich frage mich sehr, dass [netpbm] hier kein Tag für den Superuser + Stackoverflow hat.)

Kurt Pfeifle
quelle