Als «nlp» getaggte Fragen

Die Verarbeitung natürlicher Sprache (NLP) ist ein Bereich der Informatik, künstlichen Intelligenz und Linguistik, der sich mit den Interaktionen zwischen Computern und menschlichen (natürlichen) Sprachen befasst. Als solches ist NLP mit dem Bereich der Mensch-Computer-Interaktion verbunden. Viele Herausforderungen bei NLP betreffen das Verständnis natürlicher Sprachen, dh das Ermöglichen, dass Computer aus Eingaben von Menschen oder natürlichen Sprachen Bedeutung ableiten können, und andere betreffen die Erzeugung natürlicher Sprachen.

Latente Dirichlet-Zuordnung vs. Hierarchischer Dirichlet-Prozess

Latent Dirichlet Allocation (LDA) und Hierarchical Dirichlet Process (HDP) sind beide Themenmodellierungsprozesse. Der Hauptunterschied ist, dass LDA die Angabe der Anzahl der Themen erfordert und HDP nicht. Warum ist das so? Und was sind die Unterschiede, Vor- und Nachteile beider Methoden zur...

nlp topic-model lda

Was sind einige Standardmethoden zum Berechnen des Abstands zwischen Dokumenten?

Wenn ich "Dokument" sage, denke ich an Webseiten wie Wikipedia-Artikel und Nachrichten. Ich bevorzuge Antworten, die entweder lexikalische Entfernungsmetriken aus Vanille oder semantische Entfernungsmetriken nach dem neuesten Stand der Technik enthalten, wobei letztere stärker bevorzugt...

machine-learning data-mining nlp text-mining similarity

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

Welche Algorithmen sollte ich verwenden, um eine Jobklassifizierung basierend auf Lebenslaufdaten durchzuführen?

Beachten Sie, dass ich alles in R mache. Das Problem lautet wie folgt: Grundsätzlich habe ich eine Liste von Lebensläufen. Einige Kandidaten haben bereits Berufserfahrung und andere nicht. Das Ziel dabei ist: Ich möchte sie auf der Grundlage des Texts in ihren Lebensläufen in verschiedene...

machine-learning classification nlp text-mining

Allgemeine Vorgehensweise zum Extrahieren von Schlüsseltexten aus Sätzen (nlp)

Gegeben ein Satz wie: Complimentary gym access for two for the length of stay ($12 value per person per day) Wie kann ich allgemein vorgehen, um das Wort Fitnessstudio oder Zugang zum Fitnessstudio zu

machine-learning nlp text-mining data-cleaning

Word2Vec für die Erkennung benannter Entitäten

Ich möchte die word2vec-Implementierung von Google verwenden, um ein System zur Erkennung benannter Entitäten zu erstellen. Ich habe gehört, dass rekursive neuronale Netze mit Backpropagation durch Struktur für Aufgaben zur Erkennung benannter Entitäten gut geeignet sind, aber ich konnte für diesen...

machine-learning python neural-network nlp

Warum interessieren sich NLP- und Machine Learning-Communities für Deep Learning?

Ich hoffe, Sie können mir helfen, da ich einige Fragen zu diesem Thema habe. Ich bin neu auf dem Gebiet des tiefen Lernens und während ich einige Tutorials gemacht habe, kann ich Konzepte nicht miteinander in Beziehung setzen oder voneinander

machine-learning data-mining neural-network nlp deep-learning

Was ist eine bessere Eingabe für Word2Vec?

Dies ist eher eine allgemeine NLP-Frage. Was ist die richtige Eingabe, um ein Wort zu trainieren, das Word2Vec einbettet? Sollten alle zu einem Artikel gehörenden Sätze ein separates Dokument in einem Korpus sein? Oder sollte jeder Artikel ein Dokument im Korpus sein? Dies ist nur ein Beispiel mit...

nlp word-embeddings

Was ist die Positionscodierung im Transformatormodell?

Ich bin neu bei ML und dies ist meine erste Frage hier. Tut mir leid, wenn meine Frage albern ist. Ich versuche, das Papier zu lesen und zu verstehen. Achtung ist alles, was Sie brauchen, und darin befindet sich ein Bild: Ich weiß nicht, was Positionscodierung ist. Durch das Anhören einiger...

nlp encoding attention-mechanism transformer

Wie lade ich FastText Pretrained Model mit Gensim?

Ich habe versucht, ein FastText-vortrainiertes Modell von hier aus zu laden . Ich benutze wiki.simple.de from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Es werden jedoch die folgenden Fehler angezeigt Traceback...

nlp gensim

Wie kann ich die semantische Ähnlichkeit von Wörtern messen?

Was ist der beste Weg, um die semantische Ähnlichkeit von Wörtern herauszufinden? Word2Vec ist okay, aber nicht ideal: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]:...

nlp word-embeddings word2vec nltk

Wortvorhersage mit dem Word2vec-Modell

Bei einem Satz: „Wenn ich das öffnen ?? Tür es beginnt Heizung automatisch“ Ich möchte die Liste der möglichen Wörter in bekommen? mit einer Wahrscheinlichkeit. Das Grundkonzept, das im word2vec-Modell verwendet wird, besteht darin, ein Wort im gegebenen Umgebungskontext "vorherzusagen". Was ist...

nlp predictive-modeling word-embeddings

Wie erstelle ich eine Liste verwandter Wörter, die auf anfänglichen Stichwörtern basieren?

Ich habe kürzlich eine coole Funktion gesehen, die einst in Google Sheets verfügbar war : Sie schreiben zunächst einige verwandte Keywords in aufeinanderfolgende Zellen, z. B. "blau", "grün", "gelb", und es werden automatisch ähnliche Keywords generiert (in diesem Fall andere Farben). Weitere...

nlp text-mining freebase

Datensatz für die Erkennung benannter Entitäten in informellem Text

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs,...

dataset nlp

Word2Vec vs.

Ich kam vor kurzem in den Bedingungen Word2Vec , Sentence2Vec und Doc2Vec und Art verwirrt wie ich bin neu in Vektor - Semantik. Kann jemand bitte die Unterschiede in diesen Methoden in einfachen Worten erläutern. Was sind die am besten geeigneten Aufgaben für jede

machine-learning data-mining clustering nlp unsupervised-learning

Verbessern Sie die Geschwindigkeit der Implementierung von t-sne in Python für große Datenmengen

Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec). Ich verwende dafür die TSNEImplementierung aus dem sklearn.manifoldModul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hutist die...

python bigdata nlp scikit-learn dimensionality-reduction

Wie kommentiere ich Textdokumente mit Metadaten?

Welche Möglichkeiten gibt es, Textdokumente (in natürlicher Sprache, unstrukturiert) mit semantischen Metadaten zu versehen? Betrachten Sie zum Beispiel ein kurzes Dokument: I saw the company's manager last day. Um Informationen daraus extrahieren zu können, müssen sie mit zusätzlichen Daten...

nlp metadata data-cleaning text-mining

NLP - warum ist "nicht" ein Stoppwort?

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir...

nlp topic-model sentiment-analysis

Bester praktischer Algorithmus für Satzähnlichkeit

Ich habe zwei Sätze, S1 und S2, die beide (normalerweise) eine Wortanzahl unter 15 haben. Was sind die praktischsten und erfolgreichsten (maschinelles Lernen) Algorithmen, die möglicherweise einfach zu implementieren sind (neuronales Netzwerk ist in Ordnung, es sei denn, die Architektur ist so...

nlp clustering word2vec similarity

NLP - Ist Gazetteer ein Betrüger?

In NLP gibt es das Konzept, Gazetteerdas zum Erstellen von Anmerkungen sehr nützlich sein kann. So weit ich das verstehe: Ein Gazetteer besteht aus einer Reihe von Listen mit Namen von Entitäten wie Städten, Organisationen, Wochentagen usw. Diese Listen werden verwendet, um Vorkommen dieser Namen...

nlp named-entity-recognition