Gibt es eine Software, die eine Textanalyse für Blogs durchführt? [geschlossen]

8

Mein Unternehmen möchte eine PivotViewer-Visualisierung der Wordpress 2-Blogposts eines Kunden in den letzten 11 Jahren erstellen. Dazu müssen wir jedoch die etwas zufälligen, unvollständigen und im Allgemeinen schlechten Tags bearbeiten, um sie als sortierbare Kategorien zu verwenden. Ich suche nach einem Tool, das ihre Blogeinträge analysiert und die Wortzählung durchführt, um uns einen Eindruck davon zu vermitteln, womit wir es zu tun haben.

Im Idealfall verfügt es über alle folgenden Funktionen:

  1. Blacklisting von Wörtern (ignorieren)
  2. Wortstamm
  3. Benutzerdefiniertes Synonym zusammenführen
  4. Alle Verwendungen zählen
  5. Zählen der Anzahl der Beiträge, in denen ein Wort erscheint.

Ich hätte gedacht, dass diese Art der Textanalyse extrem verbreitet ist, aber ich konnte in ganzen Blogs keine Software finden, die so etwas macht. Gibt es dafür Software?

Brian Bauman
quelle
3
Interessant. Im Zweifelsfall hat Python Ihren Rücken.
James T Snell
Ja ... ich hoffe wirklich, dass ich in diesem Fall nicht meine eigenen rollen muss.
Brian Bauman
Es gibt etwas, das dies tut ... Ich erinnere mich, dass ein Freund Wikipedia analysiert hat ... Ich werde mich morgen bei ihm
erkundigen

Antworten:

3

Die Software, nach der Sie suchen, kann viele Titel wie "Inhaltsanalyse" , "Tag Cloud" oder "Meta Tags" und viele weitere wie "Textanalyse" und "Text Mining" enthalten.

Es gibt sehr viele Software-Tools für diese Zwecke, sowohl kostenlose als auch kommerzielle.

Ich habe keine persönlichen Erfahrungen mit solchen Tools, aber ein guter Ausgangspunkt sind Textanalyse-Tools , in denen Dutzende solcher kostenlosen und kommerziellen Tools aufgelistet sind.

Eine weitere solche Liste ist Textanalyse, Text Mining und Information Retrieval Software .

harrymc
quelle
Ich habe mich durch die erste Liste gefiltert, aber keine der kostenlosen Optionen enthält viel mehr als eine sprachliche Analyse. Ich habe die zweite Liste noch nicht durchgesehen - möglicherweise rolle ich meine eigene.
Brian Bauman
2

Schauen Sie sich Rapidminer oder Weka an

Da es sich um ein Kundenblog handelt, haben Sie wahrscheinlich Datenbankzugriff. Laden Sie alle Artikel als Klartext herunter und verwenden Sie eines der oben genannten Programme, um die Fragen zur Verarbeitung natürlicher Sprache (1,2,3 und 5) zu beantworten.

Die Anzahl der Verwendungen ist schwer wirklich zu automatisieren, da es darum geht, die Bedeutung von Wörtern anhand des Kontexts automatisch zu bestimmen.

suweller
quelle
Alle Verwendungen zählen, nicht Benutzer. Vielen Dank für die Vorschläge.
Brian Bauman
Ich habe falsch verstanden, mybad. Trotzdem sollten Sie Rapidminer oder Weka für die Verarbeitung natürlicher Sprache auschecken. Das heißt, es sei denn, der Datensatz ist riesig, weil beide versuchen, ihn in den Speicher zu passen
suweller
2

Eine der am meisten inhaltlichen Analysesoftware ist WordStat, das von Provalis Research entwickelt wurde

WordStat ist ein Textanalysemodul für QDA Miner oder SimStat. WordStat kombiniert die Inhaltsanalysemethode mithilfe des Wörterbuchansatzes und vieler Algorithmen oder verschiedener Text Mining-Methoden. WordStat kann vorhandene Kategorisierungswörterbücher auf einen neuen Textkorpus anwenden. Es kann auch bei der Entwicklung und Validierung neuer Kategorisierungswörterbücher verwendet werden. In Verbindung mit der manuellen Codierung kann dieses Modul eine systematischere Anwendung der Codierungsregeln unterstützen, Unterschiede in der Wortverwendung zwischen Untergruppen von Personen aufdecken und die Überarbeitung der vorhandenen Codierung mithilfe von KWIC-Tabellen (Keyword In Context) unterstützen. WordStat wurde speziell entwickelt, um Textinformationen wie Antworten auf offene Fragen, Interviews, Titel, Zeitschriftenartikel, öffentliche Reden, elektronische Kommunikation usw. zu studieren.

http://provalisresearch.com/products/content-analysis-software/

Laurence
quelle
1

Vielleicht möchten Sie Wolframs Mathematica ausprobieren. Sie müssen etwas programmieren, aber alle Werkzeuge, die Sie benötigen, sind da:

gdelfino
quelle
0

Einige dieser Fragen können mithilfe der Google-Suche in Ihrem Blog schnell und unkompliziert beantwortet werden (am einfachsten, wenn es eine eigene Domain hat).

Jürgen Strobel
quelle
0

Zemanta führt Analysen durch und kann Tags und Links vorschlagen. Es ist auch ein WordPress-Plugin.

Einziges Problem: Nach dem derzeitigen Stand muss jeder Beitrag manuell geöffnet und ausgewählt und gespeichert werden.

Es gibt jedoch eine große Anzahl von Auto-Tag-Plugins für WordPress. Sie sollten den Plugin Finder durchsuchen und ein paar ausprobieren.

music2myear
quelle