Als «text-mining» getaggte Fragen

14
Beispiele für Text Mining mit R (TM-Paket)

Ich verbrachte drei Tage damit, mich mit tmeinem Entwurf eines Freundes zu beschäftigen, in dem er mit UCINET einen Textkorpus erkundete, der Textwolken, Zwei-Modus-Netzwerkgraphen und Einzelwertzerlegung (mit Grafiken, unter Verwendung von Stata) zeigte. Ich habe viele Probleme: Unter Mac OS X...

13
Ab welchem ​​n werden n-Gramm kontraproduktiv?

Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm). Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für...

11
Inkrementelle IDF (Inverse Document Frequency)

In einer Text Mining-Anwendung besteht ein einfacher Ansatz darin, die Heuristik zu verwenden, um Vektoren als kompakte, spärliche Darstellungen der Dokumente zu erstellen. Dies ist in Ordnung für die Batch-Einstellung, bei der der gesamte Korpus a priori bekannt ist, da der i d f den gesamten...

11
Gute Bücher zum Thema Text Mining?

Hallo, ich wollte wissen, ob es einige gute Bücher zum Thema Text Mining und Klassifizierung mit einigen Fallstudien gibt. Wenn nicht, würden einige öffentlich zugängliche Papiere / Zeitschriften ausreichen. Wenn sie ihre Beispiele mit R noch besser veranschaulichen. Ich suche kein schrittweises...

10
Ist diese Interpretation der Sparsity korrekt?

Laut der Dokumentation der removeSparseTermsFunktion aus dem tmPaket bedeutet dies Sparsamkeit: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains...

9
Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?

Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1...

9
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten Häufigkeiten meiner vier...