Data Science

10
Skalierbare Ausreißer- / Anomalieerkennung

Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop...

10
Verstärkung eines lokalitätssensitiven Hash

Ich versuche, einen für die Kosinuslokalität sensiblen Hash zu erstellen, damit ich ähnliche Elementpaare finden kann, ohne jedes mögliche Paar vergleichen zu müssen. Ich habe es im Grunde funktioniert, aber die meisten Paare in meinen Daten scheinen Cosinus-Ähnlichkeit im Bereich von -0,2 bis +0,2...

10
Wie kratzt man imdb Webseite?

Ich versuche, Web Scraping mit Python selbst zu lernen, um die Datenanalyse zu erlernen. Ich versuche, die imdb-Webseite zu durchsuchen, deren URL wie folgt lautet: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Ich benutze das...

10
Funken, der eine einzelne RDD optimal in zwei aufteilt

Ich habe einen großen Datensatz, den ich nach bestimmten Parametern in Gruppen aufteilen muss. Ich möchte, dass der Job so effizient wie möglich bearbeitet wird. Ich kann mir zwei Möglichkeiten vorstellen, dies zu tun Option 1 - Karte aus Original-RDD erstellen und filtern def customMapper(record):...

10
Sind Ontologien und das Semantic Web tot? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ist das Semantic Web...

10
Kooperatives Reinforcement Learning

Ich habe bereits eine funktionierende -Implementierung für einen einzelnen Agenten, der an einem dynamischen Preisproblem mit dem Ziel der Maximierung des Umsatzes arbeitet. Das Problem, mit dem ich arbeite, betrifft jedoch mehrere verschiedene Produkte, die sich gegenseitig ersetzen. Daher scheint...

10
Wie viele Trainingsdaten benötigt word2vec?

Ich möchte den Unterschied zwischen demselben Wort vergleichen, das in verschiedenen Quellen erwähnt wird. Das heißt, wie sich Autoren in der Verwendung von schlecht definierten Wörtern wie "Demokratie" unterscheiden. Ein kurzer Plan war Nehmen Sie die Bücher, in denen der Begriff "Demokratie" als...

10
LSTM oder ein anderes RNN-Paket für R.

Ich habe ein beeindruckendes Ergebnis von LSTM-Modellen gesehen, die Shakespeare-ähnliche Texte produzieren. Ich habe mich gefragt, ob ein LSTM-Paket für R existiert. Ich habe danach gegoogelt, aber nur Pakete für Python und Julia gefunden. (Möglicherweise gibt es ein Leistungsproblem, das erklärt,...

10
AutoEncoder transformieren

Ich habe gerade Geoff Hintons Artikel über die Transformation von Autoencodern gelesen Hinton, Krizhevsky und Wang: Auto-Encoder transformieren . In Künstlichen Neuronalen Netzen und Maschinellem Lernen, 2011. und würde gerne mit so etwas herumspielen. Aber nachdem ich es gelesen hatte, konnte ich...