Data Science

12
Instanzen vs. Kerne bei Verwendung von EC2

Ich arbeitete an Projekten, die oft als "mittlere Daten" bezeichnet werden, und konnte meinen Code (hauptsächlich für die Modellierung und Vorhersage in Python) auf einem einzelnen System mit 4 bis 32 Kernen parallelisieren. Jetzt möchte ich auf Cluster unter EC2 hochskalieren (wahrscheinlich mit...

12
Ersetzt Amazon RedShift Hadoop für ~ 1XTB-Daten?

Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist...

12
Preference Matching Algorithmus

An diesem Nebenprojekt arbeite ich, um eine Lösung für das folgende Problem zu finden. Ich habe zwei Gruppen von Menschen (Kunden). Die Gruppe Abeabsichtigt zu kaufen und die Gruppe Bbeabsichtigt, ein bestimmtes Produkt zu verkaufen X. Das Produkt weist eine Reihe von Attributen auf x_i, und mein...

12
Stimmungsdaten für Emoji

Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte. Auf jeden Fall gibt es 722...

12
Hilfe zu NER in NLTK

Ich arbeite seit einiger Zeit in NLTK mit Python. Das Problem, mit dem ich konfrontiert bin, ist, dass beim Training von NER in NLTK mit meinen benutzerdefinierten Daten keine Hilfe verfügbar ist. Sie haben MaxEnt verwendet und es auf ACE-Korpus trainiert. Ich habe viel im Internet gesucht, aber...

12
Was ist ein "alter Name" eines Datenwissenschaftlers?

Begriffe wie "Data Science" und "Data Scientist" werden heutzutage zunehmend verwendet. Viele Unternehmen stellen Datenwissenschaftler ein. Aber ich denke nicht, dass es ein völlig neuer Job ist. Es gab Daten aus der Vergangenheit und jemand musste sich mit Daten befassen. Ich denke, der Begriff...

12
Herunterladen eines großen Datensatzes im Web direkt in AWS S3

Weiß jemand, ob es möglich ist, ein großes Dataset von einer URL in Amazon S3 zu importieren? Grundsätzlich möchte ich vermeiden, dass eine große Datei heruntergeladen und dann über das Webportal erneut in S3 hochgeladen wird. Ich möchte nur die Download-URL für S3 bereitstellen und darauf warten,...

12
Flugpreise - Welche Analyse sollte verwendet werden, um wettbewerbsfähiges Preissetzungsverhalten und Preiskorrelationen zu ermitteln?

Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren. Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine...

12
MinHashing vs SimHashing

Angenommen, ich habe fünf Gruppen, die ich gruppieren möchte. Ich verstehe, dass die hier beschriebene SimHashing-Technik: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ergeben könnte drei Cluster ( {A}, {B,C,D}und {E}), zum Beispiel, wenn seine Ergebnisse sind: A...