Ich sammle Textdaten zu Pressemitteilungen, Blog-Posts, Bewertungen usw. der Produkte und Leistungen bestimmter Unternehmen.
Insbesondere möchte ich prüfen, ob es Korrelationen zwischen bestimmten Arten und / oder Quellen solcher "Textinhalte" mit den Marktbewertungen der Aktiensymbole der Unternehmen gibt.
Solche offensichtlichen Korrelationen können vom menschlichen Verstand ziemlich schnell gefunden werden - aber das ist nicht skalierbar. Wie kann ich eine solche Analyse unterschiedlicher Quellen automatisieren?
finance
correlation
text-mining
Labyrinth
quelle
quelle
Antworten:
Meine Schüler tun dies als ihr Klassenprojekt. Einige Teams haben die 70% s für Genauigkeit erreicht, mit ziemlich kleinen Stichproben, was nicht schlecht ist.
Angenommen, Sie haben einige Daten wie diese:
Sie möchten die Rendite anhand des Textes vorhersagen.
Dies wird als Text Mining bezeichnet.
Was Sie letztendlich tun, ist eine enorme Matrix wie diese zu erstellen:
Das hat eine Spalte für jedes einzelne Wort und eine Zeile für jede Rückgabe und eine gewichtete Punktzahl für jedes Wort. Die Punktzahl ist häufig die TFIDF-Punktzahl oder die relative Häufigkeit des Wortes im Dokument.
Dann führen Sie eine Regression durch und prüfen, ob Sie vorhersagen können, welche Wörter die Rendite vorhersagen. Sie müssen wahrscheinlich zuerst PCA verwenden.
Buch: Grundlagen des Predictive Text Mining, Weiss
Software: RapidMiner mit Text Plugin oder R.
Sie sollten auch eine Suche in Google Scholar durchführen und sich über die Vor- und Nachteile informieren.
Sie können meine Serie von Text Mining-Videos hier sehen
quelle
Wie oben beschrieben, benötigen Sie eine Reihe von Artikeln und Antworten, und dann trainieren Sie z. ein neuronales Netz für sie. Mit RapidMiner können Sie dies tun, aber es gibt viele andere Tools, mit denen Sie Regressionen dieser Größe durchführen können. Im Idealfall ist Ihre Antwortvariable konsistent (dh% Änderung nach genau 1 Stunde oder% Änderung nach genau 1 Tag usw.).
Möglicherweise möchten Sie auch eine Art Filterung oder Klassifizierung auf Ihre Trainingsvariablen anwenden, dh auf die Wörter im Artikel. Dies kann so einfach sein wie das Filtern einiger Wörter (z. B. Präpositionen, Pronomen) oder komplexer wie das Verwenden der Syntax, um auszuwählen, welche Wörter in die Regression aufgenommen werden sollen. Beachten Sie, dass jede Filterung das Ergebnis beeinflussen kann.
Einige Leute an der Universität von Arizona haben bereits ein System entwickelt, das dies tut - ihr Artikel ist hier auf acm und Sie finden es vielleicht interessant. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (Sie benötigen ein Abonnement, um darauf zugreifen zu können, wenn Sie nicht zB an einer Universität sind). Die Referenzen können Ihnen auch dabei helfen, die richtige Richtung einzuschlagen.
quelle