Als «text-mining» getaggte Fragen

77

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

70

Wie funktioniert die Keras-Einbettungsebene?

Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array =...

text-mining word-embeddings keras

36

Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?

Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den...

r text-mining

32

Statistische Klassifizierung von Texten

Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim...

classification information-retrieval text-mining

30

Wie gut skaliert R auf Textklassifizierungsaufgaben? [geschlossen]

Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht. Es ist wahrscheinlich, dass...

r machine-learning svm text-mining random-forest

30

Maschinelles Lernen zum Parsen von Strings?

Ich habe viele Adresszeichenfolgen: 1600 Pennsylvania Ave, Washington, DC 20500 USA Ich möchte sie in ihre Bestandteile zerlegen: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in...

machine-learning text-mining

29

R-Pakete zur Themenmodellierung / LDA: nur "TopicModels" und "LDA" [geschlossen]

Es scheint mir, dass nur zwei R-Pakete in der Lage sind, Latent Dirichlet Allocation durchzuführen : Einer ist lda, verfasst von Jonathan Chang; und die andere stammt topicmodelsvon Bettina Grün und Kurt Hornik. Was sind die Unterschiede zwischen diesen beiden Paketen in Bezug auf Leistung,...

r bayesian text-mining topic-models latent-dirichlet-alloc

29

Unterschied zwischen naiven Bayes und multinomialen naiven Bayes

Ich habe mich schon einmal mit dem Naive Bayes- Klassifikator befasst. Ich habe in letzter Zeit über Multinomial Naive Bayes gelesen . Auch hintere Wahrscheinlichkeit = (Prior * Likelihood) / (Evidence) . Der einzige Hauptunterschied (während ich diese Klassifikatoren programmierte), den ich...

bayesian classification text-mining naive-bayes

27

Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?

Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist...

machine-learning classification text-mining naive-bayes laplace-smoothing

27

Ist die Kreuzvalidierung ein geeigneter Ersatz für das Validierungsset?

In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich...

machine-learning classification cross-validation text-mining

26

Themenmodelle und Methoden zum gemeinsamen Auftreten von Wörtern

Beliebte Themenmodelle wie LDA bilden in der Regel Clusterwörter, die in der Regel zusammen in einem Thema (Cluster) vorkommen. Was ist der Hauptunterschied zwischen solchen Themenmodellen und anderen einfachen Clustering-Ansätzen auf der Basis von Koexistenz wie PMI? (PMI steht für Pointwise...

machine-learning text-mining natural-language topic-models

24

Bag-of-Words für die Textklassifizierung: Warum nicht einfach Worthäufigkeiten anstelle von TFIDF verwenden?

Ein üblicher Ansatz zur Klassifizierung von Texten besteht darin, einen Klassifikator aus einem Wortsack zu schulen. Der Benutzer nimmt den zu klassifizierenden Text und zählt die Häufigkeit der Wörter in jedem Objekt, gefolgt von einer Art Beschnitt, um die resultierende Matrix in einer...

machine-learning classification text-mining

20

Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?

Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer...

text-mining natural-language word-embeddings sentiment-analysis reproducible-research

19

Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung

Letzte Bearbeitung mit allen Ressourcen aktualisiert: Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an. Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten. Tore: Wenden Sie eine halbüberwachte Klassifizierung an Wenden Sie...

machine-learning classification software svm text-mining

18

Wie berechnet man die Ratlosigkeit eines Holdouts mit Latent Dirichlet Allocation?

Ich bin verwirrt darüber, wie die Verwirrung einer Holdout-Stichprobe bei der Latent Dirichlet Allocation (LDA) berechnet wird. Die Zeitungen über das Thema rauschen darüber hinweg und lassen mich denken, ich vermisse etwas Offensichtliches ... Ratlosigkeit wird als ein gutes Maß für die Leistung...

text-mining topic-models

18

Textklassifizierung in großem Maßstab

Ich möchte meine Textdaten klassifizieren. Ich habe 300 classes200 Schulungsunterlagen pro Klasse (so 60000 documents in total) und dies wird wahrscheinlich zu sehr hohen Maßangaben führen (wir suchen möglicherweise nach mehr als 1 Million Dimensionen ). Ich möchte die folgenden Schritte in der...

machine-learning classification text-mining

18

Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]

Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn...

machine-learning text-mining natural-language

17

Warum funktioniert der Ridge-Regressionsklassifikator für die Textklassifizierung recht gut?

Während eines Experiments zur Textklassifizierung habe ich Ergebnisse gefunden, die die Tests unter den Klassifizierern, die häufiger erwähnt und für Text-Mining-Aufgaben wie SVM, NB, kNN usw. angewendet werden, ständig übertreffen zur Optimierung jedes Klassifikators für diese spezielle...

machine-learning classification text-mining ridge-regression

17

Die Eingabeparameter für die Verwendung der latenten Dirichlet-Zuordnung

Bei Verwendung der Themenmodellierung (Latent Dirichlet Allocation) ist die Anzahl der Themen ein Eingabeparameter, den der Benutzer angeben muss. Ich denke, wir sollten auch eine Sammlung von Kandidatenthemensätzen bereitstellen, mit denen der Dirichlet-Prozess verglichen werden muss. Ist mein...

machine-learning bayesian clustering text-mining dirichlet-distribution

17

Themenvorhersage mit latenter Dirichlet-Zuordnung

Ich habe LDA für ein Korpus von Dokumenten verwendet und einige Themen gefunden. Die Ausgabe meines Codes besteht aus zwei Matrizen, die Wahrscheinlichkeiten enthalten. Wahrscheinlichkeiten für ein Dokumentthema und die Wahrscheinlichkeiten für das andere Wortthema. Aber ich weiß nicht, wie ich...

text-mining topic-models