Data Science

13
Gibt es APIs zum Crawlen von Abstracts auf Papier?

Wenn ich eine sehr lange Liste von Papiernamen habe, wie könnte ich eine Zusammenfassung dieser Papiere aus dem Internet oder einer Datenbank erhalten? Die Papiernamen sind wie "Bewertung des Nutzens im Web Mining für den Bereich der öffentlichen Gesundheit". Kennt jemand eine API, die mir eine...

13
Big Data-Fallstudie oder Anwendungsbeispiel

Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie,...

13
Datensätze, die Best Practices verstehen

Ich bin ein CS-Masterstudent im Bereich Data Mining. Mein Vorgesetzter hat mir einmal gesagt, dass ich die Daten vollständig verstehen und sicherstellen muss, dass die Daten sauber und korrekt sind, bevor ich einen Klassifikator ausführe oder etwas mit einem Datensatz mache. Meine Fragen: Was sind...

13
Ist Python für Big Data geeignet?

Ich habe in diesem Beitrag gelesen: Ist die R-Sprache für Big Data geeignet, die Big Data ausmacht 5TB, und obwohl sie gute Informationen über die Machbarkeit der Arbeit mit dieser Art von Daten Rliefert, enthält sie nur sehr wenige Informationen über Python. Ich habe mich gefragt, ob ich Pythonmit...

13
Ethisch und kosteneffiziente Skalierung von Datenproblemen

Nur wenige Dinge im Leben machen mir Spaß, strukturierte und unstrukturierte Daten aus dem Internet zu kratzen und in meinen Modellen zu verwenden. Mit dem Data Science Toolkit (oder RDSTKfür R-Programmierer) kann ich beispielsweise viele gute standortbasierte Daten mithilfe von IPs oder Adressen...

13
Neo4j vs OrientDB vs Titan

Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan...

13
Dimensionalität und Mannigfaltigkeit

Ein häufig gehörter Satz beim unbeaufsichtigten maschinellen Lernen ist Hochdimensionale Eingaben leben typischerweise auf oder in der Nähe eines niedrigdimensionalen Verteilers Was ist eine Dimension? Was ist eine Mannigfaltigkeit? Was ist der Unterschied? Können Sie ein Beispiel geben, um beide...