Ich möchte Datenwissenschaftler werden . Ich habe angewandte Statistik studiert (Versicherungsmathematik), daher habe ich einen großartigen statistischen Hintergrund (Regression, stochastischer Prozess, Zeitreihen, um nur einige zu nennen). Aber jetzt mache ich einen Master in Informatik mit Schwerpunkt Intelligente Systeme.
Hier ist mein Studienplan:
- Maschinelles Lernen
- Fortgeschrittenes maschinelles Lernen
- Data Mining
- Fuzzy-Logik
- Empfehlungssysteme
- Verteilte Datensysteme
- Cloud Computing
- Wissensentdeckung
- Business Intelligence
- Informationsrückgewinnung
- Text Mining
Kann ich mich mit all meinen statistischen und Informatikkenntnissen am Ende als Datenwissenschaftler bezeichnen? , oder liege ich falsch?
Danke für die Antworten.
machine-learning
statistics
career
user3643160
quelle
quelle
Antworten:
Ich denke, Sie sind auf dem richtigen Weg, ein erfahrener Datenwissenschaftler zu werden . Kürzlich habe ich hier auf Data Science StackExchange eine verwandte Frage beantwortet: /datascience//a/742/2452 (achten Sie auf die dort erwähnte Definition , da sie Ihre Frage im Wesentlichen selbst beantwortet und auch Aspekte des Praktizierens von Software-Engineering und der Anwendung von Wissen zur Lösung realer Probleme). Ich hoffe, dass Sie das alles nützlich finden. Viel Glück in Ihrer Karriere!
quelle
Nun, es hängt davon ab, auf welche Art von "Data Science" Sie sich einlassen möchten. Für grundlegende Analysen und Berichtsstatistiken ist dies sicherlich hilfreich, aber für maschinelles Lernen und künstliche Intelligenz benötigen Sie einige weitere Fähigkeiten
Wahrscheinlichkeitstheorie - Sie müssen einen soliden Hintergrund in reiner Wahrscheinlichkeit haben, damit Sie jedes Problem, ob vorher gesehen oder nicht, in probabilistische Prinzipien zerlegen können. Statistiken helfen viel bei bereits gelösten Problemen, aber neue und ungelöste Probleme erfordern ein tiefes Verständnis der Wahrscheinlichkeit, damit Sie geeignete Techniken entwerfen können.
Informationstheorie - dies (im Vergleich zur Statistik) ist ein ziemlich neues Gebiet (obwohl noch Jahrzehnte alt), das wichtigste Werk war von Shannon, aber noch wichtiger und oft vernachlässigter Hinweis in der Literatur ist das Werk von Hobson, das die Kullback-Leibler-Divergenz bewies ist die einzige mathematische Definition, die den Begriff eines "Maßes an Information" wirklich erfasst . Für die künstliche Intelligenz ist es nun von grundlegender Bedeutung, Informationen quantifizieren zu können. Schlagen Sie vor, "Konzepte in der statistischen Mechanik" zu lesen - Arthur Hobson (sehr teures Buch, nur in wissenschaftlichen Bibliotheken erhältlich).
Komplexitätstheorie- Ein großes Problem, mit dem viele Data Scientists konfrontiert sind, die keinen soliden Hintergrund für die Komplexitätstheorie haben, besteht darin, dass ihre Algorithmen nicht skaliert werden oder nur extrem lange dauern, bis sie mit großen Datenmengen ausgeführt werden. Nehmen wir zum Beispiel PCA, die beliebteste Antwort vieler Menschen auf die Interviewfrage "Wie reduzieren Sie die Anzahl der Funktionen in unserem Datensatz?", Aber selbst wenn Sie dem Kandidaten sagen, "der Datensatz ist wirklich sehr, sehr groß", schlagen sie immer noch verschiedene Formen vor PCA, die O (n ^ 3) sind. Wenn Sie auffallen möchten, möchten Sie in der Lage sein, jedes Problem für sich zu lösen, und KEINE Lehrbuchlösung darauf werfen, die vor langer Zeit entwickelt wurde, bevor Big Data so angesagt war. Dazu müssen Sie verstehen, wie lange es dauert, nicht nur theoretisch, sondern auch praktisch, um zu laufen.
Kommunikationsfähigkeiten - Ein großer Teil von Data Science besteht darin, das Geschäft zu verstehen. Unabhängig davon, ob es darum geht, ein Produkt zu erfinden, das von Data Science gesteuert wird, oder geschäftliche Erkenntnisse zu liefern, die von Data Science gesteuert werden, ist es sehr wichtig, sowohl mit dem Projekt- als auch mit dem Produktmanager, den Technologieteams und Ihren Kollegen von Data Scientists gut kommunizieren zu können. Sie können eine erstaunliche Idee haben, sagen Sie eine großartige KI-Lösung, aber wenn Sie nicht effektiv (a) kommunizieren können, WARUM das Geschäft Geld bringt, (b) Ihre Kollegen davon überzeugen, dass es funktioniert, und (c) den Technikern erklären, wie Sie es brauchen ihre Hilfe, um es zu bauen, dann wird es nicht erledigt.
quelle
Datenwissenschaftler (für mich) ein großer Überbegriff. Ich würde einen Datenwissenschaftler als eine Person sehen, die Techniken aus den Bereichen Data Mining, maschinelles Lernen, Musterklassifizierung und Statistik kompetent anwenden kann.
Diese Begriffe sind jedoch miteinander verflochten: Maschinelles Lernen ist mit der Klassifizierung von Mustern verbunden, und auch Data Mining überschneidet sich, wenn es darum geht, Muster in Daten zu finden. Und allen Techniken liegen statistische Grundprinzipien zugrunde. Ich stelle mir das immer als ein Venn-Diagramm mit einer riesigen Kreuzung vor.
Die Informatik ist auch mit all diesen Bereichen verbunden. Ich würde sagen, dass Sie "Data Science" -Techniken benötigen, um computerwissenschaftliche Forschung zu betreiben, aber Informatikwissen ist nicht unbedingt in "Data Science" enthalten. Programmierkenntnisse - ich sehe Programmierung und Informatik als unterschiedliche Berufe, in denen Programmierung eher das Werkzeug zur Lösung von Problemen ist - sind jedoch auch wichtig, um mit den Daten zu arbeiten und Datenanalysen durchzuführen.
Sie haben einen wirklich schönen Studienplan und alles macht Sinn. Aber ich bin mir nicht sicher, ob Sie sich nur "Datenwissenschaftler" nennen wollen. Ich habe den Eindruck, dass "Datenwissenschaftler" ein so mehrdeutiger Begriff ist, der alles oder nichts bedeuten kann. Was ich vermitteln möchte, ist, dass Sie am Ende etwas "spezialisierteres" sind als "nur" ein Datenwissenschaftler.
quelle