Mein Unternehmen möchte eine PivotViewer-Visualisierung der Wordpress 2-Blogposts eines Kunden in den letzten 11 Jahren erstellen. Dazu müssen wir jedoch die etwas zufälligen, unvollständigen und im Allgemeinen schlechten Tags bearbeiten, um sie als sortierbare Kategorien zu verwenden. Ich suche nach einem Tool, das ihre Blogeinträge analysiert und die Wortzählung durchführt, um uns einen Eindruck davon zu vermitteln, womit wir es zu tun haben.
Im Idealfall verfügt es über alle folgenden Funktionen:
- Blacklisting von Wörtern (ignorieren)
- Wortstamm
- Benutzerdefiniertes Synonym zusammenführen
- Alle Verwendungen zählen
- Zählen der Anzahl der Beiträge, in denen ein Wort erscheint.
Ich hätte gedacht, dass diese Art der Textanalyse extrem verbreitet ist, aber ich konnte in ganzen Blogs keine Software finden, die so etwas macht. Gibt es dafür Software?
software-rec
statistics
blogging
word-count
Brian Bauman
quelle
quelle
Antworten:
Die Software, nach der Sie suchen, kann viele Titel wie "Inhaltsanalyse" , "Tag Cloud" oder "Meta Tags" und viele weitere wie "Textanalyse" und "Text Mining" enthalten.
Es gibt sehr viele Software-Tools für diese Zwecke, sowohl kostenlose als auch kommerzielle.
Ich habe keine persönlichen Erfahrungen mit solchen Tools, aber ein guter Ausgangspunkt sind Textanalyse-Tools , in denen Dutzende solcher kostenlosen und kommerziellen Tools aufgelistet sind.
Eine weitere solche Liste ist Textanalyse, Text Mining und Information Retrieval Software .
quelle
Schauen Sie sich Rapidminer oder Weka an
Da es sich um ein Kundenblog handelt, haben Sie wahrscheinlich Datenbankzugriff. Laden Sie alle Artikel als Klartext herunter und verwenden Sie eines der oben genannten Programme, um die Fragen zur Verarbeitung natürlicher Sprache (1,2,3 und 5) zu beantworten.
Die Anzahl der Verwendungen ist schwer wirklich zu automatisieren, da es darum geht, die Bedeutung von Wörtern anhand des Kontexts automatisch zu bestimmen.
quelle
Eine der am meisten inhaltlichen Analysesoftware ist WordStat, das von Provalis Research entwickelt wurde
WordStat ist ein Textanalysemodul für QDA Miner oder SimStat. WordStat kombiniert die Inhaltsanalysemethode mithilfe des Wörterbuchansatzes und vieler Algorithmen oder verschiedener Text Mining-Methoden. WordStat kann vorhandene Kategorisierungswörterbücher auf einen neuen Textkorpus anwenden. Es kann auch bei der Entwicklung und Validierung neuer Kategorisierungswörterbücher verwendet werden. In Verbindung mit der manuellen Codierung kann dieses Modul eine systematischere Anwendung der Codierungsregeln unterstützen, Unterschiede in der Wortverwendung zwischen Untergruppen von Personen aufdecken und die Überarbeitung der vorhandenen Codierung mithilfe von KWIC-Tabellen (Keyword In Context) unterstützen. WordStat wurde speziell entwickelt, um Textinformationen wie Antworten auf offene Fragen, Interviews, Titel, Zeitschriftenartikel, öffentliche Reden, elektronische Kommunikation usw. zu studieren.
http://provalisresearch.com/products/content-analysis-software/
quelle
Vielleicht möchten Sie Wolframs Mathematica ausprobieren. Sie müssen etwas programmieren, aber alle Werkzeuge, die Sie benötigen, sind da:
quelle
Einige dieser Fragen können mithilfe der Google-Suche in Ihrem Blog schnell und unkompliziert beantwortet werden (am einfachsten, wenn es eine eigene Domain hat).
quelle
Zemanta führt Analysen durch und kann Tags und Links vorschlagen. Es ist auch ein WordPress-Plugin.
Einziges Problem: Nach dem derzeitigen Stand muss jeder Beitrag manuell geöffnet und ausgewählt und gespeichert werden.
Es gibt jedoch eine große Anzahl von Auto-Tag-Plugins für WordPress. Sie sollten den Plugin Finder durchsuchen und ein paar ausprobieren.
quelle