Ich bin Programmierer, wie komme ich in den Bereich Data Science?

13

Zunächst klingt dieser Begriff so dunkel.

Sowieso. Ich bin ein Software-Programmierer. Eine der Sprachen, die ich codieren kann, ist Python. Apropos Daten Ich kann SQL und Data Scraping verwenden. Was ich bisher herausgefunden habe, nachdem ich so viele Artikel gelesen habe, in denen Data Science nur gut ist:

1- Statistiken

2- Algebra

3- Datenanalyse

4- Visualisierung.

5- Maschinelles Lernen.

Was ich bisher weiß:

1- Python-Programmierung 2- Datenverschrottung in Python

Können Sie mir Experten helfen oder eine Roadmap vorschlagen, um Theorie und Praxis auf den neuesten Stand zu bringen? Ich habe mir ungefähr 8 Monate Zeit gegeben.

Volatil3
quelle
Bitte geben Sie genau an, worauf Sie sich einlassen möchten. Nicht nur das Feld, sondern auch auf welcher Ebene. Zum Beispiel - "professionelle medizinische Text Miner" oder "Amateur astrophysical Universum Prüfer"
Pete
Ich bin bereit, etwas zu werden, das als Berater oder Angestellter fungieren kann und bei dem Unternehmen Kontakt aufnehmen können, um ihre Daten einzusehen und Einblicke zu gewinnen.
Volatil3
(1) Andrews Ng-Kurs über maschinelles Lernen; (2) Yaser Abu-Mostafa-Kurs zum Lernen aus den Daten; Beide sind zugänglich (Zeit ist nicht inbegriffen) und vermitteln ein gutes Verständnis.
Vladislavs Dovgalecs
Schauen Sie sich meine letzte Frage an
Martin
Der Begriff Data Science ist sehr weit gefasst. Vielleicht könnten Sie sich überlegen, welche Art von Jobs Sie möchten und in welchem ​​Unternehmen Sie arbeiten möchten, um deren Anforderungen und Verantwortlichkeiten zu ermitteln. Dann würden Sie wissen, ob der Job Ihren Erwartungen und der Lücke Ihrer Fähigkeiten entspricht. Hier ist eine Anforderung von Data Scientist in GOOGLE. ! [Data Scientist-Anforderungen von Google ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

Antworten:

18

Konzentrieren Sie sich weniger auf das Sammeln von Fähigkeiten als vielmehr auf das Sammeln von Erfahrung. Versuche einige Probleme zu lösen und poste deine Arbeit auf Github. Sie werden dabei mehr lernen und in der Lage sein, Arbeitgebern Wissen und Erfahrung zu demonstrieren, was viel wertvoller ist als ein vermeintlich tiefes Verständnis eines Themas oder einer Theorie.

Data Science ist heutzutage ein ziemlich umfangreiches Fachgebiet, daher bin ich mir nicht sicher, welche Art von Arbeit Sie konkret ausführen möchten. Unter der Annahme, dass maschinelles Lernen ein Bestandteil davon ist, ist kaggle.com ein guter Ausgangspunkt. Wenn Sie in der Lage sind, mit den Daten in pandas / numpy / scipy zu arbeiten, Modelle in sci-kit zu erstellen, zu lernen und einige hübsche Grafiken in seaborn, ggplot oder sogar matplotlib zu erstellen, werden Sie keine Probleme haben, diese zu erhalten Ein Job aus Sicht der Fähigkeiten - besonders wenn Sie Codebeispiele und Beispiele haben, um Ihre Fähigkeiten zu demonstrieren. Wenn Sie nicht weiterkommen, hat stackexchange entweder die Antwort oder Sie können eine Frage stellen und Sie werden in Kürze eine Antwort erhalten. Wenn Sie erst einmal Ihren Lebensunterhalt verdient haben, werden Sie wahrscheinlich von einem erfahrenen Teammitglied, das Sie betreut, noch mehr lernen.

Viel Glück.

David
quelle
7

Ich mag den Berkeley-Kurs über Data Science, werde eine gute Grundlage und einen guten Geschmack für Data Science geben, nachdem ich zu UDacity und Coursera und vielen weiteren Ressourcen übergegangen bin. Also, wenn Sie Programmierkenntnisse haben, brauchen Sie Mathe und Statistik und viel Visualisierung. Es ist auch eine gute Gelegenheit, sich an IPython zu gewöhnen, da es wichtig ist, jeden Schritt zu sehen (zu visualisieren), wie es abläuft, statt ein ganzes Skript zu schreiben und danach zu testen (Anaconda ist einfach zu installieren und zu verwenden). Der Kurs ist unten aufgeführt: bcourses.berkeley.edu/courses/1267848/wiki auch der Status, den ich als guten kostenlosen Kurs von SAS finde: Statistik 1: Einführung in ANOVA, Regression und logistische Regression support.sas.com/edu/schedules.html ? ctry = us & id = 1979

Ab ML empfehlen wir: www.kaggle.com/c/titanic/details/getting-started-with-python

Auf der linken Seite finden Sie auch Excel mit Pivot-Tabellen und R. DataCamp hat das Tutorial zur Verwendung von R veröffentlicht. Sobald Sie diese Schritte abgeschlossen haben, sind mehr Wettbewerbe zum Sammeln von Erfahrung auf kaggle (kürzlich für die San Francisco Crime Classification veröffentlicht) und schließlich tolle Video-Tutorials von www.dataschool.io

ich hoffe es hilft ...

n1tk
quelle
Danke für deine Antwort. Wie hast du gelernt?
Volatil3
1
Online-Bücher, Online-Tutorials und viele praktische Codes zum Spielen mit Daten. Probieren Sie die kaggle.com und versuchen Sie es durch Wettbewerbe. Ist toll, wenn man anfängt, ML zu lernen.
25.
Wenn Sie letztendlich versuchen, eine Community von Datenwissenschaftlern zu finden und an den Projekten teilzunehmen, sammeln Sie so viel Erfahrung in den Projekten, die kein Buch lehren kann.
n1tk
Aber ich bin nicht gut in Theorie wie Statistik, Mathematik usw. Ich habe sie in Uni-Tagen studiert
Volatil3
In meinem speziellen Fall habe ich darüber nachgedacht, wieder in die Schule zurückzukehren und zum Doktorandenprogramm in Analytics and Data Science zu wechseln. Graphentheorie und vieles mehr ...
n1tk
4

Ein echter Datenwissenschaftler ist ein angewandter Statistiker, der aus den richtigen Gründen maschinelle Lernalgorithmen codiert und verwendet. Statistik ist die Basis aller Datenwissenschaften. Es ist der "Kuchen" an sich. Alles andere ist nur Zuckerguss.

Die Frage ist, was für ein Data Scientist möchten Sie sein? Möchten Sie ein Meister des Fachs sein (Wissen darüber, wie, warum, wann und wann Sie keinen Algorithmus oder keine Technik anwenden müssen) oder ein Kaggle-Skript-Kiddie, der Scipy verwendet und denkt, dass er ein Data Scientist ist?

1 - Statistiken

2- Alles andere

Verstecktes Markov-Modell
quelle
2
Ich verstehe nicht, was du sagst. Ich habe nie gesagt, dass es nicht wichtig ist, "angewandte Statistik" zu kennen - ich habe lediglich die Unterscheidung getroffen, dass es wichtiger ist, Erfahrung in der Anwendung von Methoden zu sammeln, als theoretisches Wissen über die Methoden selbst zu erlangen.
David
1
David, das war genau mein Punkt der Meinungsverschiedenheit. Ohne theoretische Kenntnisse der Methoden selbst sind wir einfach nur Script-Kiddies. Erfahrung ist wichtig, aber sie ist ein Nebenprodukt theoretischen Wissens und nicht umgekehrt.
Hidden Markov Model
2
Nein, das ist es nicht. Es gibt einen großen Unterschied zwischen angewandter Erfahrung und theoretischem Wissen, es ist häufig der Unterschied zwischen dem, was in der Industrie und im Unterricht erlangt wird. Zum Beispiel ist es wertvoller zu wissen, wie mit einer angewandten Methode wie der Kreuzvalidierung effektiv überprüft werden kann, ob ein Modell überfordert ist, als die theoretischen Grundlagen der Regularisierung zu kennen. Bitte hören Sie auch auf, "Script Kidies" zu erwähnen - niemand plädiert dafür, die neue und schreckliche One-Click-to-Submit-Funktionalität von kaggle zu verwenden.
David
1
Wenn das, was Sie sagen, zutrifft, warum bevorzugen Unternehmen Doktortitel und Personen mit Master-Abschluss gegenüber Personen mit einfachem Bachelor-Abschluss? Das liegt daran, dass sie theoretische Kenntnisse über die Techniken haben, die die Algorithmen antreiben. Sie sind die Motorenbauer an sich. Theoretisches Wissen ist tieferes Wissen. Kaggle ist ein Vorratstank für Drehbuchkinder.
Hidden Markov Model
1
Obwohl ich sehe, dass Sie beide versuchen, Punkte zu machen, denke ich, dass dies möglicherweise nicht im Zusammenhang steht. Die ursprüngliche Frage lautete: "Wie kann ein Programmierer in einen Job in Data Science wechseln?" Wenn die Antwort lautet: "Lass alles fallen, verbringe einige Jahre damit, einen Doktortitel in Statistik zu bekommen, dann mache einige Projekte selbst und beginne dann mit der Bewerbung." Sinn. In Anbetracht der Anzahl der Stats PHD (oder sogar Masters) und der Anzahl der schauenden Personen können Arbeitgeber Personen in Betracht ziehen, die Erfahrung ohne Abschluss nachweisen können.
Chrisfs
4

Wenn Sie ein praktischer Mann mit wahrem Wissen sein möchten, beginnen Sie mit Mathematik (Kalkül, Wahrscheinlichkeit + Statistik, lineare Algebra). Versuchen Sie bei jedem Schritt alles mit Programmieren umzusetzen, dafür ist Python gut geeignet. Wenn Sie auf dem richtigen Weg sind, spielen Sie mit echten Daten und lösen Sie Probleme

Kurse. Lineare Algebra - edx Laff oder Kodierung der Matrix Stat - edx stat 2x Barkley Calculus - lies ... es ist einfach

Amanuel Negash
quelle
2

David hat einen guten Punkt, ich würde vorschlagen, dass Sie sich auf das konzentrieren, was Ihr Interesse mehr antreibt. Dies ist der einzige Weg, um bei jeder Art von Anstrengung erfolgreich zu sein. Wenn Sie etwas cooles bauen wollen, fangen Sie damit an. Wenn Sie ein Buch lesen möchten, das auch gut ist. Der Ausgangspunkt spielt keine Rolle. In ein paar Tagen haben Sie ein besseres Verständnis dafür, was Sie als Nächstes tun möchten und sollten.

Piriko
quelle
1

Data Science ist so breit gefächert, dass es viele verschiedene Wege gibt, sich darauf einzulassen. Es ist normalerweise in 4 oder 5 verschiedene Typen unterteilt, zum Beispiel:

Bildbeschreibung hier eingeben

In den anderen Beiträgen zu diesem Thema wurden Personen mit einem Hintergrund für angewandte Statistik (Anwendung des richtigen Algorithmus), einem Programmierhintergrund (Teilnahme an Kaggle) und anderen Personen mit einem betriebswirtschaftlichen Hintergrund aufgeführt

Versierte Unternehmen könnten eine Person mit Programmierfehlern als "Dateningenieur" bezeichnen. Große Unternehmen setzen jeden Typ auch für ihr Data-Science-Team ein. Daher ist es eine gute Sache, gute T-förmige Fähigkeiten zu demonstrieren.

user46958
quelle
0

Wenn Sie ein Programmierer sind, können Sie mit einem Decision Tree-Klassifikator beginnen und sich darauf konzentrieren, die Mathematik hinter Entropy und Information-Gain zu verstehen. Es ist wichtig zu verstehen, dass es bei ML nur um Datenkomprimierung geht.

Ich bin mit einigen anderen Antworten zum Wert von Praktika nicht einverstanden. Am wertvollsten für ML ist die Mathematik: Zahlentheorie, lineare Algebra und Wahrscheinlichkeitstheorie.

Wenn Sie sich nicht auf Mathematik konzentrieren, ist das einzige, was Sie lernen werden, wie man eine Bibliothek zum Zaubern benutzt, das ist kein maschinelles Lernen und überhaupt keine Wissenschaft.

Eugen
quelle