Wie kann ich die Wortzahl einer PDF-Datei ermitteln? Ich denke, dass die meisten PDF-Dateien, für die ich die Gesamtwortzahl erhalten möchte, eine eingebettete Textebene haben, sodass ich keine OCR benötige.
Die Aufgabe ergab sich aus der Suche nach wissenschaftlichen Arbeiten bekannter Größe, z. B. 15000 Wörtern. Die meisten Moders Papers werden im PDF-Format veröffentlicht
quelle
pdftotext
: Vergiss das e nicht. Und Sie können mit einem einzigen Befehl verwenden:pdftotext myfile.pdf - | wc -w
.pdftotext
es sich um einen Teil von Xpdf handelt, der auch für die Windows-Plattform verfügbar ist. Die Xpdf-Downloadseite befindet sich hier: foolabs.com/xpdf/download.html .wc
kann auch gefunden werden, aber alternativ kann man so ziemlich jedes Textverarbeitungsprogramm wie Word oder LibreOffice Writer verwenden. Sie zählen auch Wörter. (Für LibreOffice Writer gehen Sie zu Datei -> Eigenschaften -> Statistik)Dies ist eine schwierige Aufgabe, die nicht einfach zu lösen ist. Wenn Sie wirklich ein genaues Ergebnis wünschen, kopieren Sie Absatz für Absatz für Ihren PDF-Viewer in eine Textdatei und überprüfen Sie diese mit dem
wc -w
Tool. Der Grund, warum manpdftotext
in diesem Fall nicht verwendet , ist: Mathematische Formeln können auch in die Ausgabe gelangen und als "Wörter" betrachtet werden. (Alternativ können Sie die Ausgabe bearbeiten, von der Sie erhaltenpdftotext
). Ein weiterer Grund, warum dies fehlschlagen kann, sind die Überschriften: "4.3.2 Foo Bar" wird als drei Wörter gezählt.Ein Ausweg besteht darin, nur Wörter zu zählen, die mit einem Buchstaben aus [A-Za-z] beginnen. Normalerweise mache ich einen zweistufigen Ansatz:
Holen Sie sich die Liste der eindeutigen Wörter und prüfen Sie, ob zu viele falsche Positive enthalten sind:
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
Ich verwende hier kein Wörterbuch, da einige Rechtschreibfehler nicht als Wörter gelten.
Holen Sie sich diese Wortliste und schreiben Sie sie in die Ausgabe von pdftotext:
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
Ich weiß, dass dies innerhalb eines Einzeilers möglich ist, aber dann konnte ich das Filterergebnis des ersten Schritts nicht leicht erkennen. Das
-F
kann dir helfen wie im Kommentar von moi unten angegeben (danke).quelle
grep -Ff words
, weil sich grep über "Unmatched [or [^" beschwert. Auf der Manpage: `` `-F, --fixed-strings Interpretieren Sie PATTERN als eine Liste fester Zeichenfolgen, die durch Zeilenumbrüche getrennt sind und mit denen übereinstimmen sollen. (-F wird von POSIX angegeben.) `` `Ich habe gerade ein kostenloses Programm, Translator's Abacus, ausprobiert . Sie können verschiedene Dateitypen (einschließlich PDF) ziehen und ablegen. Ein Browser mit einem druckbaren Bericht über die Wortanzahl für jedes Dokument wird geöffnet. Es hat gut funktioniert für mich. (Es ist speziell für die Anzahl der Wörter erstellt und ist nur 435 KB ... das heißt, keine "große Anwendung"). Translator's Abacus funktioniert nicht mit PDF 1.5 oder höher.
Alternativ : Sie können einfach Ctrl+ Aden gesamten Text in Acrobat Reader auswählen und ihn dann in ein Programm wie Microsoft Word kopieren (das in der Statusleiste am unteren Bildschirmrand eine Wortanzahl hat).
quelle
Wenn Sie Acrobat Pro verwenden, können Sie die PDF-Datei auf einfache Weise in ein Microsoft Word-Dokument exportieren und anschließend die Wortzählung in Word durchführen. Alternativ können Sie es in eine Nur-Text-Datei exportieren und ein Word Count-Dienstprogramm im Texteditor Ihrer Wahl verwenden. Ich habe gerade eine Wortzählung für einen PDF-Artikel mit der Word-Methode durchgeführt und es dauerte 30 Sekunden, bis er fertig war.
Hoffe das hilft.
quelle
Sie können OCRFeeder installieren . Wählen Sie darin Datei-> PDF importieren-> Alle Seiten automatisch erkennen und erkennen-> In ODT exportieren und libreoffice writer-Dokument ist bereit für die Wortzählung oder jede andere RTF-Funktion, die Sie verwenden möchten.
quelle
Ich finde den Wortzähler in den Abrakadabra-Werkzeugen praktisch. Die Installation ist allerdings etwas schrullig.
quelle
Sie können das JavaScript der Adobe Acrobat-Konsole mit dem folgenden Code verwenden, den ich aus der Antwort von Dave Merchant auf forums.adobe.com entnommen habe :
Getestet mit Adobe Acrobat Pro DC 2018.011.20040 unter Windows 7 SP1 x64 Ultimate.
So aktivieren Sie die JavaScript-Konsole:
So starten Sie das JavaScript-Konsolenfenster:
CTRL + J
Zu Ihrer Information, wenn Sie die LaTeX-Quelle haben, die der PDF entspricht: Korrigieren Sie die Wortanzahl eines LaTeX-Dokuments .
quelle
De facto Standard, den Übersetzer seit etwa 2000 verwenden, ist AnyCount Word Count Tool. Es zählt Wörter in PDF und 37 anderen Formaten.
quelle
Ctrl+ Shift+ FGeben Sie die erweiterte Suche ein. Geben Sie das Wort ein und es wird gezählt, wie oft es im Dokument enthalten ist. Es ist keine Raketenwissenschaft.
quelle