Als «data» getaggte Fragen

Fragen, die sich hauptsächlich mit der Verwaltung von Daten befassen, ohne sich auf die Vorverarbeitung oder Modellierung zu konzentrieren.

86
Wie groß ist Big Data?

Viele Menschen verwenden den Begriff Big Data eher kommerziell , um darauf hinzuweisen, dass große Datenmengen in die Berechnung einbezogen sind und daher potenzielle Lösungen eine gute Leistung aufweisen müssen. Natürlich sind Big Data immer mit Begriffen wie Skalierbarkeit und Effizienz...

48
Ist die R-Sprache für Big Data geeignet?

R hat viele Bibliotheken, die auf Datenanalyse abzielen (z. B. JAGS, BUGS, ARULES usw.) und wird in populären Lehrbüchern erwähnt, wie z. B .: J. Krusche, Doing Bayesian Data Analysis; B.Lantz, "Maschinelles Lernen mit R". Ich habe eine Richtlinie von 5 TB für einen Datensatz gesehen, der als Big...

40
Data Science in C (oder C ++)

Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen...

33
Öffnen einer 20-GB-Datei zur Analyse mit Pandas

Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? Wenn nicht,...

29
Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :(...

23
Data Science-Projektideen [geschlossen]

Geschlossen . Diese Frage ist meinungsbasiert . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Ich weiß nicht, ob...

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...