Ich habe Tausende von wissenschaftlichen PDFs, die ich umbenennen muss, viele haben keine Metadaten. Ich möchte in der Lage sein, eine Automatoraktion zu erstellen, die einen Ordner öffnen und dann jedes PDF öffnen kann, den Titel kopieren und das Dokument umbenennen und in einem neuen Ordner speichern kann. Ich habe stundenlang versucht, dies herauszufinden, daher würde ich mich über jede Hilfe sehr freuen. Ich habe Apple G5 2.26Gz Quad mit os10.6 Danke!
4
Wenn ich Sie richtig verstehe , möchten Sie den Papiertitel extrahieren, der auf der ersten Seite des PDF-Dokuments vorhanden ist (in der Regel in größerem Druck als die Zusammenfassung und der folgende Text) und ihn als Dateinamen verwenden.
Ich fürchte, Sie werden wahrscheinlich keine Komplettlösung finden , da am Anfang des PDF -Dokuments möglicherweise unterschiedliche Mengen an Nicht-Titel-Text vorhanden sind, sodass es schwierig ist, den eigentlichen Titel für PDF-Dokumente zu extrahieren, die aus unterschiedlichen Quellen stammen Zeitschriften.
Ich würde wahrscheinlich eine Lösung finden, die für einen bestimmten Prozentsatz Ihrer PDFs funktioniert
Wenn Sie ein Tool finden, mit dem Sie sowohl die relative Textgröße als auch einfachen Text aus einem PDF-Dokument extrahieren können, ist dies wahrscheinlich auch eine große Hilfe.
Viel Glück - es wäre interessant zu sehen, ob Sie einen Weg finden, dies zu automatisieren! Das Wichtigste, was ich mache, wenn ich Artikel selbst herunterlade, ist, sie systematisch zu benennen, aber es wäre sicher großartig, wenn ich danach etwas tun würde ...
quelle
Wenn Sie keine externe Software verwenden möchten und Lust haben, ein eigenes Skript zu schreiben, öffnen Sie Ihre PDF-Dateien als einfachen Text mit einem Texteditor, und suchen Sie nach Mustern. Suchen Sie entweder nach dem Schlüsselwort 'title' oder suchen Sie nach Wörtern im Titel und sehen Sie, wo sie erscheinen.
Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften in der Chemie):
ACS (American Chemical Society): Der Titel wird in Klammern nach dem zweiten Vorkommen des Schlüsselworts "/ title" angezeigt.
Wiley Publishing: Der Titel wird in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts "/ Title" angezeigt.
Rsc-Veröffentlichung: hat den Titel nicht im Klartext.
Springer: Es scheint von der Zeitschrift abzuhängen
Da die meisten Zeitschriften, die ich lese, von wiley oder acs sind, würde die Situation für mich ziemlich gut aussehen.
Dies könnte ein Plan sein: 1. Studieren Sie PDFs der Verlage, aus denen Sie am häufigsten Zeitschriften lesen. 2. Wählen Sie diejenigen aus, die den Titel im Klartext haben. Dies sollte kein Problem sein, da alle ihre Namen in den letzten KB des PDF-Dokuments enthalten. 3. Verwalten Sie diese mit einem Skript
Abhängig davon, wie viele der von Ihnen gelesenen Zeitschriften das Title-Tag für den Titel des Artikels verwenden, kann dies nützlich sein oder nicht.
Ein allgemeinerer Ansatz wäre: pdf-> text-> parse text Sie können hier beginnen: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text
quelle