Ich habe ein in Ruby geschriebenes Konsolentool namens gefunden pdf-Auszug , mit dem Textbereiche und Dokumentgröße in Pixel angezeigt werden können. Ich bin mir nicht sicher, ob es für Windows funktionieren wird, aber unter Linux funktioniert es ziemlich gut (außer dass die PDF-Reader-Version 1.1.1 installiert sein sollte, eine höhere Version funktioniert nicht).
Beispielverwendung:
pdf-extract extract --regions file.pdf
Beispielausgabe:
<?xml version="1.0"?>
<pdf>
<page width="612" height="792" number="1">
<region x="40.73" y="682.68" width="62.53" height="4.47" line_height="4.47" font="CHRUEN+MetaPlusMedium-Roman">
<line x_offset="0.0" y_offset="0.0" spacing="0.0">xxxx</line>
</region>
<region x="41.65" y="669.18" width="60.69" height="4.47" line_height="4.47" font="CHRUEN+MetaPlusMedium-Roman">
<line x_offset="0.0" y_offset="0.0" spacing="0.0">xxxx</line>
</region>
<region x="40.81" y="655.68" width="62.38" height="4.47" line_height="4.47" font="CHRUEN+MetaPlusMedium-Roman">
<line x_offset="0.0" y_offset="0.0" spacing="0.0">xxxx</line>
</region>
<region x="19.48" y="640.69" width="5.86" height="5.9" line_height="5.9" font="XBCKNX+AGaramond-Italic">
<line x_offset="0.0" y_offset="0.0" spacing="0.0">xxx</line>
</region>
<region x="27.44" y="640.69" width="97.07" height="5.96" line_height="4.47" font="CHRUEN+MetaPlusMedium-Roman">
<line x_offset="0.0" y_offset="1.49" spacing="0.0">xxx</line>
<line x_offset="44.96" y_offset="0.0" spacing="-4.42">xxx</line>
</region>
<region x="43.18" y="628.68" width="57.64" height="4.47" line_height="4.47" font="CHRUEN+MetaPlusMedium-Roman">
<line x_offset="0.0" y_offset="0.0" spacing="0.0">xxxx</line>
</region>
</page>
</pdf>
Wobei "xxx" tatsächlicher Text ist