Wie lerne ich Data Science selbst? [geschlossen]

16

Ich bin ein autodidaktischer Webentwickler und möchte mir Data Science beibringen, bin mir aber nicht sicher, wie ich anfangen soll. Insbesondere frage ich mich:

  1. Welche Bereiche gibt es in der Datenwissenschaft? (z. B. Künstliche Intelligenz, maschinelles Lernen, Datenanalyse usw.)
  2. Gibt es Online-Kurse, die Leute empfehlen können?
  3. Gibt es da draußen Projekte, an denen ich üben kann (z. B. offene Datensätze)?
  4. Gibt es Zertifizierungen, die ich beantragen oder vervollständigen kann?
Martin
quelle

Antworten:

15

Willkommen auf der Seite, Martin! Das ist eine ziemlich breite Frage, daher werden Sie wahrscheinlich eine Vielzahl von Antworten erhalten. Hier ist meine Einstellung.

  1. Data Science ist ein interdisziplinäres Gebiet, das in der Regel klassische Statistik, maschinelles Lernen und Informatik kombiniert (dies hängt wiederum davon ab, wen Sie fragen. Andere Bereiche können Business Intelligence und mögliche Informationsvisualisierung oder Wissensentdeckung sein. Zum Beispiel: der Wikipedia-Artikel über Data Science ). Ein guter Datenwissenschaftler kann auch die domänenspezifischen Merkmale der Domäne erfassen, in der er arbeitet. Beispielsweise ist ein Datenwissenschaftler, der an der Analyse von Krankenhausakten arbeitet, viel effektiver, wenn er über einen Hintergrund in biomedizinischer Informatik verfügt.
  2. Abhängig von der Art der Analyse , an der Sie interessiert sind, gibt es hier viele Optionen. Andrew Ngs Coursera-Kurs ist die erste Ressource, die von den meisten zu Recht erwähnt wird . Wenn Sie sich für maschinelles Lernen interessieren, ist dies ein guter Ausgangspunkt. Wenn Sie sich eingehend mit der Mathematik befassen möchten, ist Tibshiranis The Elements of Statistical Learning ein ausgezeichneter, aber ziemlich fortgeschrittener Text. Zusätzlich zu den Ng-Kursen gibt es viele Online-Kurse zu Coursera. Sie sollten diese jedoch mit Bedacht für die Art der Analyse auswählen, auf die Sie sich konzentrieren möchten, und / oder für die Domäne, in der Sie arbeiten möchten.
  3. Kaggle . Beginnen Sie mit kaggle, wenn Sie sich mit einigen realen Analyseproblemen befassen möchten. Je nach Kenntnisstand kann es jedoch sinnvoll sein, einfacher zu beginnen. Project Euler ist eine großartige Ressource für einmalige Übungsprobleme, die ich immer noch als Aufwärmarbeit verwende.
  4. Auch dies hängt wahrscheinlich von der Domäne ab, in der Sie arbeiten möchten. Ich weiß jedoch, dass Coursera ein Data Science-Zertifikat anbietet, wenn Sie eine Reihe von Kursen zum Thema Data Science absolvieren. Dies ist wahrscheinlich ein guter Anfang.

Viel Glück! Wenn Sie weitere spezifische Fragen haben, können Sie mich gerne in den Kommentaren fragen, und ich werde mein Bestes geben, um Ihnen zu helfen!

Kyle.
quelle
1
Um darauf zurückzukommen, Andrew Ngs Kurs ist schwierig . Ich hätte erwähnen sollen, dass ich nicht stark in Mathe bin. Ich habe gehört, dass dieser andere Data Science-Kurs das Erlernen der Seile ein wenig erleichtert. Was denkst du?
Martin
5

Ich bin ein autodidaktischer Datenwissenschaftler und würde mein Bestes geben, um Ihnen zu erklären, wie Sie vorgehen müssen.


Welche Bereiche gibt es in der Datenwissenschaft? (z. B. Künstliche Intelligenz, maschinelles Lernen, Datenanalyse usw.)

Data Science ist eine sehr weite Domäne. Es geht um die Wissenschaft der Daten. Jedes Feld, das Daten verwendet, um Entscheidungen zu treffen, fällt unter diese Domäne. Einige der Felder umfassen:

  • AI
  • Mustererkennung und -analyse
  • Bio-Statistiken
  • Statistisches Lernen
  • Maschinelles Lernen
  • Datenästhetik (oder Datenvisualisierung)
  • Datenjournalismus

Gibt es Online-Kurse, die Leute empfehlen können?

Ich habe eine ähnliche Frage beantwortet . Also würde ich es hier zitieren:

Beginnen Sie mit dem maschinellen Lernkurs des Coursera . Es macht einen wirklich guten Job, wenn es darum geht, den Studenten in die Domäne des maschinellen Lernens einzuführen, und hilft Ihnen dabei, eine solide Grundlage in den Konzepten zu legen.

Falls Sie das Gefühl haben, dass die Mathematik in diesem Kurs etwas verblüfft ist, können Sie diesen Kurs belegen , der von demselben Professor unterrichtet wird und mathematikintensiver ist als der vorherige.

Nun hätten Sie eine klare Vorstellung von den Grundkonzepten des maschinellen Lernens. Nehmen Sie jetzt an diesem Kurs teil , der als Folge- oder Ergänzungskurs für den Kurs von Andrew Ng gedacht ist.

Diese Ressource von IAPR enthält ausführliche Hinweise zu vielen ML-Konzepten wie Kreuzvalidierung, Regularisierung usw.

Sie können sich auch diese erstaunliche Liste von Ressourcen ansehen, die in einem Blog auf Quora zusammengefasst sind.

Wenn Sie sich mit fortgeschrittenen Konzepten neuronaler Netze und Tiefenlernen befassen möchten, können Sie dieses kostenlose Buch verwenden .

Schließlich ist das kostenlose E-Book: Elements of Statistical Learning ein wunderbares Buch für Anfänger in ML oder Statistical Learning.

Schauen Sie sich außerdem dieses Repository mit Data Science-Referenzen von Quora an .


Gibt es da draußen Projekte, an denen ich üben kann (z. B. offene Datensätze)?

Ich habe begonnen, Projekte mit offenen Datensätzen aus Indien durchzuführen. Ich würde Ihnen jedoch empfehlen, sich diese erstaunliche Diskussion hier anzuschauen, und nachdem Sie diese Projekte durchgeführt haben, können Sie mit Kaggle beginnen.


Gibt es Zertifizierungen, die ich beantragen oder vervollständigen kann?

Meiner Meinung nach gibt es keine datenwissenschaftlichen Zertifizierungen. Ja, es gibt viele Big Data-Zertifizierungen, aber ich habe nicht gesehen, dass sie für angehende Datenwissenschaftler wirklich nützlich sind. Ich empfehle Ihnen daher, sie nicht mindestens zu verfolgen, bis Sie mit Ihren ML- und Datenkenntnissen vertraut genug sind.

Dawny33
quelle
1

Ich empfehle, von Coursera-Spezialisierungen in Data Science auszugehen. Die datentechnische Spezialisierung von Johns Hopkins ist die älteste laufende Spezialisierung. Ich empfehle keine Bücher und kaggle. Sie verwirren Sie nur am Anfang. Denken Sie daran, dass Codierung der einfachste Teil der Datenwissenschaft ist und Sie viel lernen müssen. Dieses Venn-Diagramm ist ein guter Anfang , um sich ein Bild über das Gebiet zu machen .

Hamideh
quelle