Zunächst klingt dieser Begriff so dunkel.
Sowieso. Ich bin ein Software-Programmierer. Eine der Sprachen, die ich codieren kann, ist Python. Apropos Daten Ich kann SQL und Data Scraping verwenden. Was ich bisher herausgefunden habe, nachdem ich so viele Artikel gelesen habe, in denen Data Science nur gut ist:
1- Statistiken
2- Algebra
3- Datenanalyse
4- Visualisierung.
5- Maschinelles Lernen.
Was ich bisher weiß:
1- Python-Programmierung 2- Datenverschrottung in Python
Können Sie mir Experten helfen oder eine Roadmap vorschlagen, um Theorie und Praxis auf den neuesten Stand zu bringen? Ich habe mir ungefähr 8 Monate Zeit gegeben.
Antworten:
Konzentrieren Sie sich weniger auf das Sammeln von Fähigkeiten als vielmehr auf das Sammeln von Erfahrung. Versuche einige Probleme zu lösen und poste deine Arbeit auf Github. Sie werden dabei mehr lernen und in der Lage sein, Arbeitgebern Wissen und Erfahrung zu demonstrieren, was viel wertvoller ist als ein vermeintlich tiefes Verständnis eines Themas oder einer Theorie.
Data Science ist heutzutage ein ziemlich umfangreiches Fachgebiet, daher bin ich mir nicht sicher, welche Art von Arbeit Sie konkret ausführen möchten. Unter der Annahme, dass maschinelles Lernen ein Bestandteil davon ist, ist kaggle.com ein guter Ausgangspunkt. Wenn Sie in der Lage sind, mit den Daten in pandas / numpy / scipy zu arbeiten, Modelle in sci-kit zu erstellen, zu lernen und einige hübsche Grafiken in seaborn, ggplot oder sogar matplotlib zu erstellen, werden Sie keine Probleme haben, diese zu erhalten Ein Job aus Sicht der Fähigkeiten - besonders wenn Sie Codebeispiele und Beispiele haben, um Ihre Fähigkeiten zu demonstrieren. Wenn Sie nicht weiterkommen, hat stackexchange entweder die Antwort oder Sie können eine Frage stellen und Sie werden in Kürze eine Antwort erhalten. Wenn Sie erst einmal Ihren Lebensunterhalt verdient haben, werden Sie wahrscheinlich von einem erfahrenen Teammitglied, das Sie betreut, noch mehr lernen.
Viel Glück.
quelle
Ich mag den Berkeley-Kurs über Data Science, werde eine gute Grundlage und einen guten Geschmack für Data Science geben, nachdem ich zu UDacity und Coursera und vielen weiteren Ressourcen übergegangen bin. Also, wenn Sie Programmierkenntnisse haben, brauchen Sie Mathe und Statistik und viel Visualisierung. Es ist auch eine gute Gelegenheit, sich an IPython zu gewöhnen, da es wichtig ist, jeden Schritt zu sehen (zu visualisieren), wie es abläuft, statt ein ganzes Skript zu schreiben und danach zu testen (Anaconda ist einfach zu installieren und zu verwenden). Der Kurs ist unten aufgeführt: bcourses.berkeley.edu/courses/1267848/wiki auch der Status, den ich als guten kostenlosen Kurs von SAS finde: Statistik 1: Einführung in ANOVA, Regression und logistische Regression support.sas.com/edu/schedules.html ? ctry = us & id = 1979
Ab ML empfehlen wir: www.kaggle.com/c/titanic/details/getting-started-with-python
Auf der linken Seite finden Sie auch Excel mit Pivot-Tabellen und R. DataCamp hat das Tutorial zur Verwendung von R veröffentlicht. Sobald Sie diese Schritte abgeschlossen haben, sind mehr Wettbewerbe zum Sammeln von Erfahrung auf kaggle (kürzlich für die San Francisco Crime Classification veröffentlicht) und schließlich tolle Video-Tutorials von www.dataschool.io
ich hoffe es hilft ...
quelle
Ein echter Datenwissenschaftler ist ein angewandter Statistiker, der aus den richtigen Gründen maschinelle Lernalgorithmen codiert und verwendet. Statistik ist die Basis aller Datenwissenschaften. Es ist der "Kuchen" an sich. Alles andere ist nur Zuckerguss.
Die Frage ist, was für ein Data Scientist möchten Sie sein? Möchten Sie ein Meister des Fachs sein (Wissen darüber, wie, warum, wann und wann Sie keinen Algorithmus oder keine Technik anwenden müssen) oder ein Kaggle-Skript-Kiddie, der Scipy verwendet und denkt, dass er ein Data Scientist ist?
1 - Statistiken
2- Alles andere
quelle
Wenn Sie ein praktischer Mann mit wahrem Wissen sein möchten, beginnen Sie mit Mathematik (Kalkül, Wahrscheinlichkeit + Statistik, lineare Algebra). Versuchen Sie bei jedem Schritt alles mit Programmieren umzusetzen, dafür ist Python gut geeignet. Wenn Sie auf dem richtigen Weg sind, spielen Sie mit echten Daten und lösen Sie Probleme
Kurse. Lineare Algebra - edx Laff oder Kodierung der Matrix Stat - edx stat 2x Barkley Calculus - lies ... es ist einfach
quelle
David hat einen guten Punkt, ich würde vorschlagen, dass Sie sich auf das konzentrieren, was Ihr Interesse mehr antreibt. Dies ist der einzige Weg, um bei jeder Art von Anstrengung erfolgreich zu sein. Wenn Sie etwas cooles bauen wollen, fangen Sie damit an. Wenn Sie ein Buch lesen möchten, das auch gut ist. Der Ausgangspunkt spielt keine Rolle. In ein paar Tagen haben Sie ein besseres Verständnis dafür, was Sie als Nächstes tun möchten und sollten.
quelle
Data Science ist so breit gefächert, dass es viele verschiedene Wege gibt, sich darauf einzulassen. Es ist normalerweise in 4 oder 5 verschiedene Typen unterteilt, zum Beispiel:
In den anderen Beiträgen zu diesem Thema wurden Personen mit einem Hintergrund für angewandte Statistik (Anwendung des richtigen Algorithmus), einem Programmierhintergrund (Teilnahme an Kaggle) und anderen Personen mit einem betriebswirtschaftlichen Hintergrund aufgeführt
Versierte Unternehmen könnten eine Person mit Programmierfehlern als "Dateningenieur" bezeichnen. Große Unternehmen setzen jeden Typ auch für ihr Data-Science-Team ein. Daher ist es eine gute Sache, gute T-förmige Fähigkeiten zu demonstrieren.
quelle
Wenn Sie ein Programmierer sind, können Sie mit einem Decision Tree-Klassifikator beginnen und sich darauf konzentrieren, die Mathematik hinter Entropy und Information-Gain zu verstehen. Es ist wichtig zu verstehen, dass es bei ML nur um Datenkomprimierung geht.
Ich bin mit einigen anderen Antworten zum Wert von Praktika nicht einverstanden. Am wertvollsten für ML ist die Mathematik: Zahlentheorie, lineare Algebra und Wahrscheinlichkeitstheorie.
Wenn Sie sich nicht auf Mathematik konzentrieren, ist das einzige, was Sie lernen werden, wie man eine Bibliothek zum Zaubern benutzt, das ist kein maschinelles Lernen und überhaupt keine Wissenschaft.
quelle