Als «nlp» getaggte Fragen

Die Verarbeitung natürlicher Sprache (NLP) ist ein Bereich der Informatik, künstlichen Intelligenz und Linguistik, der sich mit den Interaktionen zwischen Computern und menschlichen (natürlichen) Sprachen befasst. Als solches ist NLP mit dem Bereich der Mensch-Computer-Interaktion verbunden. Viele Herausforderungen bei NLP betreffen das Verständnis natürlicher Sprachen, dh das Ermöglichen, dass Computer aus Eingaben von Menschen oder natürlichen Sprachen Bedeutung ableiten können, und andere betreffen die Erzeugung natürlicher Sprachen.

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

22
Was ist eine bessere Eingabe für Word2Vec?

Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit...

21
Wie lade ich FastText Pretrained Model mit Gensim?

Ich habe versucht, ein FastText-vortrainiertes Modell von hier aus zu laden . Ich benutze wiki.simple.de from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Es werden jedoch die folgenden Fehler angezeigt Traceback...

20
Wortvorhersage mit dem Word2vec-Modell

Bei einem Satz: „Wenn ich das öffnen ?? Tür es beginnt Heizung automatisch“ Ich möchte die Liste der möglichen Wörter in bekommen? mit einer Wahrscheinlichkeit. Das Grundkonzept, das im word2vec-Modell verwendet wird, besteht darin, ein Wort im gegebenen Umgebungskontext "vorherzusagen". Was ist...

18
Datensatz für die Erkennung benannter Entitäten in informellem Text

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs,...

17
NLP - warum ist "nicht" ein Stoppwort?

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir...

16
NLP - Ist Gazetteer ein Betrüger?

In NLP gibt es das Konzept, Gazetteerdas zum Erstellen von Anmerkungen sehr nützlich sein kann. So weit ich das verstehe: Ein Gazetteer besteht aus einer Reihe von Listen mit Namen von Entitäten wie Städten, Organisationen, Wochentagen usw. Diese Listen werden verwendet, um Vorkommen dieser Namen...