Gibt es eine Volltext-Indizierungs-Engine, die über die Befehlszeile abgefragt werden kann und im Idealfall keine GUI erfordert?
Ich bin besonders an der Indizierung meiner E-Books und Papers interessiert, das ist also eine Mischung aus PDF, Epub und ein paar DJVUs. (Open) Office-Dokumente wären nett, aber viel niedriger auf meiner Liste.
command-line
search
julien
quelle
quelle
Antworten:
Hast du dir Lucene oder Sphinx angesehen? Während Sie zunächst die zu indizierenden Dokumente analysieren müssen, können Sie anschließend über die Benutzeroberfläche nach Dokumenten suchen.
Für Lucene, gibt es einige Informationen über dieses tun zur Verfügung .
Sphinx, ist ein bisschen vage, aber es gibt auch einige Dokumentation zur Verfügung . Sie können strukturierte XML-Daten Ihrer Wahl über die Datenquelle xmlpipe2 an sphinx übergeben.
Lucene verlässt sich auf Java, während Sphinx in C ++ erstellt wird und keine externen Abhängigkeiten benötigt werden.
Entweder erfordert man ein wenig Arbeit, um das zu tun, was man will, aber es scheint eine vollkommen praktikable Lösung zu sein.
quelle
Besuche xapian . Es verfügt über eine Befehlszeilenschnittstelle und kann eine Vielzahl von Formaten indizieren.
quelle
Recoll kann ohne GUI erstellt werden und durchsucht Ihre Dokumenttypen über die Befehlszeile.
Es verwendet Xapian unter der Haube.
quelle
Tracker kann über die Befehlszeile aufgerufen werden und gtk + ist keine feste Abhängigkeit für ein Projekt (kann aber für Pakete sein).
quelle
In dieser Antwort wird die Verwendung der Google- Codesuche empfohlen .
Superuser auf Debian / Derivaten können versuchen:
sudo apt-get install codesearch
quelle
Derzeit gibt es zwei Tracker-Streams: Stable (0,8) und Unstable (0,9). Ihr Betriebssystem wahrscheinlich hat die 0,8 - Version, also wenn Sie es sich leisten können (es hat einige bleeding edge Software - Abhängigkeiten), die neueste tarfile (0.9.x) unterwegs zu greifen. Es hat viele Verbesserungen gegenüber 0,8 und wird derzeit weiter stabilisiert , um 0,10 zu erreichen (gerade Zahlen stehen für Stabilität). Wenn Sie diese Route wählen, verwenden Sie diesen Befehl, um Folgendes zu konfigurieren:
Wahrscheinlich werden Sie die Abhängigkeiten nicht installiert haben, daher sollte es einfacher sein, 0.8 von Ihrer Distribution zu installieren und nur die GUI-Bits zu vermeiden. Unter Debian Squeeze, Ubuntu 10.10 und Ubuntu 11.04 sind diese Teile gut aufgeteilt. Also ( als root ) ausführen:
Das CLI-Tool hierfür ist
tracker-search
, führen Sie es mit der--help
Option aus, um zu sehen, wie Sie es nutzen können :-)Notizen :
tracker-applet
und enthälttracker-preferences
. Sie haben jedoch ein separates Paket fürtracker-search-tool
die GUI-Suchoberfläche.quelle
Ich habe in diesem Sommer ein Volltextsuchwerkzeug (ein neues Apropos) für die Indizierung und Suche von Manpages nach NetBSD mit Sqlite3 geschrieben. Es besteht aus zwei Befehlszeilentools:
Sie können auch ein ähnliches Tool für sich selbst schreiben. Für PDFs benötigen Sie eine Bibliothek zum Parsen von PDF-Dokumenten sowie ein Hilfsprogramm zum Parsen der Open Office-Dokumente.
Sie können mehr über das Projekt lesen Sie hier
Der Code ist hier
quelle