Als «bigdata» getaggte Fragen

Big Data ist der Begriff für eine Sammlung von Datensätzen, die so groß und komplex sind, dass die Verarbeitung mit vorhandenen Datenbankverwaltungstools oder herkömmlichen Datenverarbeitungsanwendungen schwierig wird. Die Herausforderungen umfassen Erfassung, Kuratierung, Speicherung, Suche, Freigabe, Übertragung, Analyse und Visualisierung.

86
Wie groß ist Big Data?

Viele Menschen verwenden den Begriff Big Data eher kommerziell , um darauf hinzuweisen, dass große Datenmengen in die Berechnung einbezogen sind und daher potenzielle Lösungen eine gute Leistung aufweisen müssen. Natürlich sind Big Data immer mit Begriffen wie Skalierbarkeit und Effizienz...

48
Ist die R-Sprache für Big Data geeignet?

R hat viele Bibliotheken, die auf Datenanalyse abzielen (z. B. JAGS, BUGS, ARULES usw.) und wird in populären Lehrbüchern erwähnt, wie z. B .: J. Krusche, Doing Bayesian Data Analysis; B.Lantz, "Maschinelles Lernen mit R". Ich habe eine Richtlinie von 5 TB für einen Datensatz gesehen, der als Big...

40
Data Science in C (oder C ++)

Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen...

33
Öffnen einer 20-GB-Datei zur Analyse mit Pandas

Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? Wenn nicht,...

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

23
Data Science-Projektideen [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Ich weiß nicht, ob...

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

14
Wann täuschen p-Werte?

Auf welche Datenbedingungen sollten wir achten, wenn p-Werte möglicherweise nicht die beste Methode zur Bestimmung der statistischen Signifikanz sind? Gibt es bestimmte Problemtypen, die in diese Kategorie

13
Big Data-Fallstudie oder Anwendungsbeispiel

Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten? Welche Art von Werkzeugtechnologien verwendeten sie,...

13
Ist Python für Big Data geeignet?

Ich habe in diesem Beitrag gelesen: Ist die R-Sprache für Big Data geeignet, die Big Data ausmacht 5TB, und obwohl sie gute Informationen über die Machbarkeit der Arbeit mit dieser Art von Daten Rliefert, enthält sie nur sehr wenige Informationen über Python. Ich habe mich gefragt, ob ich Pythonmit...