Beispiele für Text Mining mit R (TM-Paket)

14

Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X gibt es Probleme mit Java hinter Bibliotheken wie Snowball (stemming) oder Rgraphviz (graphs).

Könnte jemand Punkt aus nicht - Paketen - Ich habe betrachtet tm, wordfishund wordscores, und weiß über NLTK - aber Forschung, wenn möglich mit dem Code, auf Textdaten, dass Anwendungen erfolgreich tmoder etwas anderes zu Daten wie Parlamentsdebatten oder Legislativdokumente zu analysieren? Ich kann nicht viel zu diesem Thema finden und noch weniger Code, von dem ich lernen kann.

Mein eigenes Projekt ist eine zweimonatige parlamentarische Debatte. Diese Variablen sind in einer CSV-Datei enthalten: Parlamentssitzung, Sprecher, Fraktion, Text der mündlichen Intervention. Ich suche nach Unterschieden zwischen Sprechern und insbesondere zwischen Fraktionen bei der Verwendung seltener und weniger seltener Begriffe, z. B. "Sicherheitsgespräch" gegen "Bürgerrechtsgespräch".

Fr.
quelle

Antworten:

7

Die Dissertation des Autors von tm, Ingo Feinerer aus Österreich, ist in englischer Sprache verfasst. Die Kapitel 7-10 dieses Dokuments enthalten Anwendungen des tm-Pakets mit zunehmender Komplexität.

http://epub.wu.ac.at/1923/

In Kapitel 7 wird eine Anwendung von tm vorgestellt, indem die Mailingliste von R-devel 2006 analysiert wird. Kapitel 8 zeigt eine Anwendung von Text Mining für Unternehmen auf den elektronischen Geschäftsverkehr. Kapitel 9 ist ein Antrag von tm zur Untersuchung der österreichischen Obersten Verwaltungsgerichtsbarkeit in Bezug auf Gebühren und Steuern. [...] . Kapitel 10 zeigt eine Anwendung für die Zuordnung von Stilen und Urheberschaften im Wizard of Oz-Datensatz.

Lesen Sie das gesamte Dokument vollständig durch. Beachten Sie jedoch, dass das Dokument im Jahr 2008 verfasst wurde und seitdem einige API-Änderungen vorgenommen wurden. In der Doktorarbeit wird beispielsweise eine Funktion erwähnt tmMap(), in die umbenannt wurde tm_map(). Die Codebeispiele funktionieren also nicht wie sie sind. Sie können sie nicht mit Ausschneiden und Einfügen testen.

Sie können auch zu gehen

http://tm.r-forge.r-project.org/users.html

"Um neue Benutzer über bestehende TM-Anwendungen zu informieren, wird auf dieser Website eine (unvollständige alphabetische) Liste der TM-Benutzer und ihrer Kommentare bereitgestellt. Bekannte Benutzer reichen von Forschungsinstituten über Unternehmen bis hin zu Einzelpersonen."

Suchen Sie auf dieser Seite nach der Phrase "schrieb ein Papier" und Sie werden viele Links finden. Ich habe nur eine der Abhandlungen gelesen: "Automatische Themenerkennung in Liedtexten". Sehr interessant und lustig.

knb
quelle
Ich denke, Feinerers Dissertation ist das Dokument, das mir bisher am meisten geholfen hat. Vielen Dank!
Fr.
5

Ein guter Anfang könnte die Liste der Veröffentlichungen auf der Website für sein tm, wie zum Beispiel diese:

Die Referenzliste am Ende jeder dieser Veröffentlichungen enthält erfolgreiche Anwendungen von tm, nach denen Sie anscheinend suchen. Es gibt viele - vor allem dann, wenn Sie den Referenzen der Referenzen folgen.

Zum Beispiel ist hier eine, die von Relevanz sein könnte:

Feinerer I, Hornik K (2007). \ Text Mining of Supreme Administrative Court. "In C. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (Hrsg.), \ Datenanalyse, maschinelles Lernen und Anwendungen (Tagungsband der 31. Jahrestagung der Gesellschaft für Arbeit) Klassikation eV, 7. {9. März 2007, Freiburg, Deutschland), "Studien zu Klassifikation, Datenanalyse und Wissensorganisation. Springer-Verlag.

Viel Glück.

Ein Mann
quelle
Danke für die Hinweise. Der Detaillierungsgrad ist in diesen Veröffentlichungen jedoch unzureichend - ich musste aus Feinerers Dissertation lesen, um genügend Details darüber zu erhalten, wie ich vorgehen soll tm. Trotzdem vielen Dank :)
Fr.