Ich brauche eine Möglichkeit, den Text aus allen MS Office-Dokumenttypen (Word, Excel, Powerpoint) unter Linux zu extrahieren. Ich stelle mir vor, dass es mehrere verschiedene Ansätze gibt, um dies zu erreichen, wie z. B. ein Bash- oder Python-Skript oder die Konvertierung in PDF und das anschließende Extrahieren des Texts mit einem Tool wie pdftotext.
Dies scheint eine alltägliche Anforderung zu sein. Gibt es ein etabliertes Verfahren oder Werkzeug, um dies einfach zu erreichen?
Endlich habe ich das perfekte Tool zum Parsen von Skripten gefunden. Es ist Apache-Tika und kann unzählige Nicht-Text-Formate in Text umwandeln, was sehr cool ist!
Holen Sie sich Apache Tika hier:
http://tika.apache.org/
(Mac Homebrew Benutzer:
brew install tika
)Die Befehlszeilenschnittstelle funktioniert folgendermaßen:
tika --text something.docx > something.txt
quelle
Abiword kann von der Kommandozeile aus beliebige bekannte Dateiformate konvertieren.
Konvertieren von Word in einfachen Text:
abiword --to=txt myfile.doc
Erstellen Sie ein PDF aus einer Word-Datei:
abiword --to=pdf myfile.doc
Und so weiter. Die Ergebnisse in diesen Fällen wären myfile.txt oder myfile.pdf. Wenn Sie den Ausgabenamen angeben möchten, können Sie dies auch tun:
abiword --to=txt --to-name=output.txt myfile.doc
ODT in Word konvertieren:
abiword --to=doc myfile.odt
Word in ODT konvertieren:
abiword --to=odt myfile.doc
Um anderen Antworten gerecht zu werden, sollte beachtet werden, dass AbiWord wvWare verwendet, um Word-Dokumente zu verarbeiten, aber auch die wvWare-Homepage empfiehlt, für die meisten Konvertierungen stattdessen AbiWord zu verwenden.
Ich hasse Textverarbeitungsprogramme. Dies ist der Hauptgrund, warum ich AbiWord installiert habe.
Sie könnten auch an unoconv interessiert sein , einem ähnlichen Tool, das OpenOffice-Formate unterstützt (einschließlich Tabellenkalkulationen und Ähnlichem), aber ich habe keine persönlichen Erfahrungen damit.
quelle
Mit LibreOffice können Sie:
quelle
Sie können CUPS (virtueller Drucker) und ld verwenden.
quelle
wv ist eine Option und IIRC OpenOffice kann über die Befehlszeile angewiesen werden, als PDF zu exportieren und zu beenden.
quelle
Wenn Sie Apache Tika in einem Python-Projekt verwenden möchten, lesen Sie bitte diesen Blog-Beitrag .
quelle
1.doc catdoc oder antiword für die Konvertierung von doc-Dateien können Sie den folgenden Befehl verwenden: catdoc file.doc> file oder antiword file.doc> file
docx docx2txt
pdf emacs datei.pdf strg-x strg-s datei
quelle
Docsplit ist das perfekte Tool, um den Text aus PDF zu extrahieren. Es ist ein Rubinjuwel. Deshalb sollten Sie Ruby und Gem in Ihrem Linux-System installieren, bevor Sie den Befehl docsplit verwenden.
Wenn Ihr System nicht über Rubin und Edelstein verfügt, befolgen Sie die Anweisungen.
Sie müssen root sein, um die Software zu installieren (vorausgesetzt, Sie möchten, dass sie allen Benutzern zur Verfügung steht).
Installieren Sie den Ruby unter Linux: yum install ruby
Installieren Sie den Edelstein, laden Sie das neueste Edelsteinpaket herunter und folgen Sie den Anweisungen
tar xzf rubygems-xxxx.tgz
cd rubygems-xxxx
ruby setup.rb
Nachdem RubyGems installiert wurde, sollten Sie den Befehl gem haben (gem ist der Befehl, der für die Interaktion mit dem RubyGems-Paketsystem verwendet wird). Testen Sie es mit:
Edelsteinliste
Fahren Sie nun mit dem nächsten Schritt fort, um das docsplit gem zu installieren, und rufen Sie die folgende Site auf. http://documentcloud.github.com/docsplit/
quelle