Ich suche eine PDF-Bibliothek, mit der ich den Text aus einem PDF-Dokument extrahieren kann. Ich habe mir PyPDF angesehen, und dies kann den Text sehr gut aus einem PDF-Dokument extrahieren. Das Problem dabei ist, dass bei Tabellen im Dokument der Text in den Tabellen in Übereinstimmung mit dem Rest des Dokumenttextes extrahiert wird. Dies kann problematisch sein, da dadurch Textabschnitte erzeugt werden, die nicht nützlich sind und verstümmelt aussehen (z. B. viele zusammengepresste Zahlen).
Ich möchte den Text aus einem PDF-Dokument extrahieren, ohne Tabellen und spezielle Formatierungen. Gibt es da draußen eine Bibliothek, die das macht?
quelle
Das ist ein schwer zu lösendes Problem, da visuell ähnliche PDFs je nach Art ihrer Erstellung eine sehr unterschiedliche Struktur aufweisen können. Im schlimmsten Fall müsste sich die Bibliothek grundsätzlich wie eine OCR verhalten. Andererseits kann das PDF eine ausreichende Struktur und Metadaten zum einfachen Entfernen von Tabellen und Abbildungen enthalten, auf die die Bibliothek zugeschnitten werden kann.
Ich bin mir ziemlich sicher, dass es keine Open-Source-Tools gibt, die Ihr Problem für eine Vielzahl von PDFs lösen, aber ich erinnere mich, dass ich von kommerzieller Software gehört habe, die behauptet, genau das zu tun, wonach Sie fragen. Ich bin sicher, Sie werden ihnen beim Googeln begegnen.
quelle