Verwendung von Text Mining / Tools zur Verarbeitung natürlicher Sprache für die Ökonometrie

9

Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen.

Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte können möglicherweise mit einzelnen Verwaltungsinformationen verknüpft werden. Ich möchte Informationen aus diesen Berichten extrahieren, die für die quantitative Analyse verwendet werden können, und im Idealfall mehr als nur einfache Keyword- / Regex-Suchen mit grep/ awkusw.

Wie nützlich ist die Verarbeitung natürlicher Sprache dafür? Was sind andere nützliche Text-Mining-Ansätze? Soweit ich weiß, ist dies ein großes Feld, und höchstwahrscheinlich müssten einige der Berichte transformiert werden, um als Korpus verwendet zu werden. Lohnt es sich, etwas Zeit zu investieren, um sich mit Literatur und Methoden vertraut zu machen? Kann es hilfreich sein und wurde schon etwas Ähnliches getan? Lohnt es sich in Bezug auf die Belohnungen, dh kann ich mithilfe von NLP potenziell nützliche Informationen für eine empirische Studie in Wirtschaftswissenschaften extrahieren?

Möglicherweise gibt es Mittel, um jemanden einzustellen, der einige der Berichte liest und vorbereitet. Dies ist ein größeres Projekt und es besteht die Möglichkeit, mehr Mittel zu beantragen. Ich kann bei Bedarf weitere Details zum Thema bereitstellen. Eine mögliche Komplikation ist, dass die Sprache Deutsch und nicht Englisch ist.

In Bezug auf Qualifikationen bin ich hauptsächlich in Ökonometrie ausgebildet und habe einige Kenntnisse über Computerstatistik auf der Ebene von Hastie et al. Buch. Ich kenne Python, R, Stata und könnte mich wahrscheinlich schnell mit Matlab vertraut machen. Angesichts der Bibliotheken gehe ich davon aus, dass Python das Werkzeug der Wahl ist. Keine Ausbildung in qualitativen Methoden, wenn dies relevant ist, aber ich kenne einige Leute, die ich erreichen könnte.

Ich freue mich über jede Eingabe dazu, dh wenn dies möglicherweise nützlich ist, wenn ja, wo ich mit dem Lesen beginnen soll und auf welche Tools ich mich besonders konzentrieren soll.

ilprincipe
quelle
LASSO, Least Angle Regression und Logistic Analysis sind einige potenziell relevante Tools. Vielleicht möchten Sie herausfinden, wie ich ein ähnliches Problem für meine Promotion angegangen bin. Diplomarbeit hier und mein Blogbeitrag über NLP-Tools in der Wirtschaft hier . Wenn Sie damit irgendwohin kommen, wäre es großartig, von Ihren Fortschritten oder Herausforderungen zu hören, denen Sie möglicherweise begegnet sind.
Gradstudent

Antworten:

2

Ich denke, es wäre für Sie von Vorteil, zu definieren, welche Informationen Sie aus den Daten extrahieren möchten. Einfache Keyword- / Regex-Suchen können für Sie tatsächlich sehr fruchtbar sein. Ich arbeite in der Versicherungsbranche und wir verwenden diese Art des Text Mining ziemlich häufig - es ist wohl naiv und definitiv unvollkommen, aber es ist ein relativ guter Anfang (oder eine enge Annäherung) an das, woran wir allgemein interessiert sind.

Um herauszufinden, ob die von Ihnen gewählte Methode geeignet ist, würde ich empfehlen, genau zu definieren, was Sie aus den Daten extrahieren möchten. Das ist meiner Meinung nach der schwierigste Teil.

Es kann interessant sein, die eindeutigen Wörter in allen Zeichenfolgen zu finden und eine Häufigkeit der ungefähr 1000 Wörter zu ermitteln. Dies kann rechenintensiv sein (abhängig von Ihrem RAM / Prozessor), aber es kann interessant sein, es sich anzusehen. Wenn ich die Daten ohne viel Wissen untersuchen würde, würde ich hier beginnen (andere bieten möglicherweise andere Ansichten an).

Ich hoffe, das hilft.

Francisco Arceo
quelle
danke, ich habe definitiv darüber nachgedacht, mit so etwas zu beginnen. Ich weiß, dass meine Frage vage ist, aber ich bin allgemeiner daran interessiert, welche Art von Informationen ich mit anderen Methoden extrahieren könnte. Ich gebe zu, ich bin mir nicht sicher, ob es möglich ist, dies zu beantworten, ohne den spezifischen Kontext zu kennen.
Ilprincipe
1
Ich denke, das ist immer die Herausforderung bei jeder datenbezogenen Arbeit / Beruf. Ich würde wahrscheinlich empfehlen, einige Ihrer Daten zu betrachten. Wenn es Variablen mit Beschreibungen der Daten oder des Versicherungsereignisses gibt, lesen Sie ein paar Dutzend - machen Sie sich ein Bild von den Daten. Denken Sie daran, alles, was wir jemals versuchen, ist, den zugrunde liegenden Prozess der Daten zu modellieren. Um wirklich gute Arbeit zu leisten, müssen Sie die Daten kennen.
Francisco Arceo