Data Science

17
NLP - warum ist "nicht" ein Stoppwort?

Ich versuche, Stoppwörter zu entfernen, bevor ich eine Themenmodellierung durchführe. Mir ist aufgefallen, dass einige Negationswörter (weder noch nie, keine usw.) normalerweise als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, spacy und sklearn "not" in ihren Stoppwortlisten. Wenn wir...

16
Was ist ein LB-Score beim maschinellen Lernen?

Ich habe einen Artikel in Kaggle-Blogs gelesen. Wiederholt erwähnt der Autor "LB-Punktzahl" und "LB-Fit" als Maß für die Effektivität des maschinellen Lernens (zusammen mit der CV-Punktzahl). Bei einer Recherche nach der Bedeutung von 'LB' habe ich viel Zeit darauf verwendet, dass die Leute es im...

16
Extrahieren Sie die informativsten Textteile aus Dokumenten

Gibt es Artikel oder Diskussionen zum Extrahieren von Textteilen, die die meisten Informationen zum aktuellen Dokument enthalten? Zum Beispiel habe ich einen großen Bestand an Dokumenten aus derselben Domäne. Es gibt Textteile, die die wichtigsten Informationen enthalten, über die ein einzelnes...

16
Data Science Podcasts?

Was sind einige Podcasts, die sich auf die Datenwissenschaft beziehen? Dies ist eine ähnliche Frage wie die Referenzanforderungsfrage bei CrossValidated . Details / Regeln: Die Podcasts (das Thema und die Folgen) sollten sich auf die Datenwissenschaft beziehen. (Zum Beispiel: Ein Podcast über eine...