Nachdem ich kürzlich mein Doktorandenprogramm in Statistik abgeschlossen hatte, hatte ich in den letzten Monaten begonnen, nach einer Arbeit im Bereich Statistik zu suchen. Fast jedes Unternehmen, das ich in Betracht zog, hatte eine Stellenanzeige mit der Berufsbezeichnung " Data Scientist ". Tatsächlich fühlte es sich so an, als wären die Tage, in denen man Berufsbezeichnungen von Statistical Scientist oder Statistician sah, lange vorbei . Hatte ein Data Scientist wirklich das ersetzt, was ein Statistiker war, oder fragte ich mich auch, welche Titel er trug?
Nun, die meisten Qualifikationen für die Jobs fühlten sich wie Dinge an, die sich unter dem Titel Statistiker qualifizieren würden. Die meisten Jobs wollten einen Doktortitel in Statistik ( ), die meisten benötigten Kenntnisse in experimentellem Design ( ), linearer Regression und Anova ( ), verallgemeinerten linearen Modellen ( ) und anderen multivariaten Methoden wie PCA ( ). sowie Kenntnisse in einer statistischen Computerumgebung wie R oder SAS ( ). Klingt so, als wäre ein Datenwissenschaftler eigentlich nur ein Codename für einen Statistiker.✓ ✓ ✓ ✓ ✓
Allerdings begann jedes Interview mit der Frage: "Kennen Sie sich mit Algorithmen für maschinelles Lernen aus?" In den meisten Fällen musste ich versuchen, Fragen zu Big Data, High Performance Computing und Themen zu neuronalen Netzen, CART, Support-Vektor-Maschinen, Boosten von Bäumen, unbeaufsichtigten Modellen usw. zu beantworten Im Grunde genommen statistische Fragen, aber am Ende jedes Interviews konnte ich nicht anders, als das Gefühl zu verlieren, ich wüsste immer weniger, was ein Datenwissenschaftler ist.
Ich bin ein Statistiker, aber bin ich ein Datenwissenschaftler? Ich arbeite an wissenschaftlichen Problemen, also muss ich Wissenschaftler sein! Und ich arbeite auch mit Daten, also muss ich ein Datenwissenschaftler sein! Und laut Wikipedia stimmen mir die meisten Akademiker zu ( https://en.wikipedia.org/wiki/Data_science , etc.)
Obwohl die Verwendung des Begriffs "Data Science" im Geschäftsumfeld explodiert ist, sehen viele Wissenschaftler und Journalisten keinen Unterschied zwischen Data Science und Statistik.
Aber wenn ich all diese Vorstellungsgespräche für eine Position als Datenwissenschaftler absolviere, warum fühlt es sich dann so an, als würden sie mir niemals statistische Fragen stellen?
Nun, nach meinem letzten Interview wollte ich, dass ein guter Wissenschaftler es tut, und ich suchte nach Daten, um dieses Problem zu lösen (hey, ich bin schließlich ein Datenwissenschaftler). Nach unzähligen Suchanfragen bei Google hatte ich jedoch das Gefühl, dass ich mich erneut mit der Definition eines Data Scientists auseinandersetzte. Ich wusste nicht, was ein Data Scientist genau ist, da es so viele Definitionen dafür gibt ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) aber anscheinend sagten mir alle, dass ich einer sein wollte:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... die Liste geht weiter.
Am Ende des Tages stellte ich fest, dass "Was ist ein Datenwissenschaftler?" Eine sehr schwer zu beantwortende Frage ist. Heck, es gab zwei ganze Monate in Amstat, in denen sie Zeit darauf verwendet haben, diese Frage zu beantworten:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Nun, ich muss ein sexy Statistiker sein, um ein Datenwissenschaftler zu sein, aber hoffentlich kann die Cross-Validated-Community etwas Licht ins Dunkel bringen und mir helfen, zu verstehen, was es bedeutet, ein Datenwissenschaftler zu sein. Sind nicht alle Statistiker Datenwissenschaftler?
(Bearbeiten / Aktualisieren)
Ich dachte, das könnte die Unterhaltung aufpeppen. Ich habe gerade eine E-Mail von der American Statistical Association erhalten, in der es um eine Stelle bei Microsoft geht, die einen Data Scientist sucht. Hier ist der Link: Data Scientist Position . Ich halte dies für interessant, da die Rolle der Position auf viele spezifische Merkmale zutrifft, über die wir gesprochen haben, aber ich denke, viele von ihnen erfordern einen sehr strengen Hintergrund in der Statistik und widersprechen auch vielen der unten aufgeführten Antworten. Falls der Link nicht mehr funktioniert, finden Sie hier die Eigenschaften, die Microsoft von einem Datenwissenschaftler erwartet:
Grundlegende Berufsanforderungen und Fähigkeiten:
Business Domain-Erfahrung mit Analytics
- Sie müssen Erfahrung in verschiedenen relevanten Geschäftsbereichen in der Nutzung kritischer Denkfähigkeiten zur Konzeption komplexer Geschäftsprobleme und ihrer Lösungen mithilfe fortschrittlicher Analysen in umfangreichen realen Geschäftsdatensätzen haben
- Der Kandidat muss in der Lage sein, Analyseprojekte unabhängig durchzuführen und unseren internen Kunden dabei zu helfen, die Ergebnisse zu verstehen und sie in Maßnahmen umzusetzen, die ihrem Geschäft zugute kommen.
Vorausschauende Modellierung
- Branchenübergreifende Erfahrung in der prädiktiven Modellierung
- Geschäftsproblemdefinition und konzeptionelle Modellierung mit dem Kunden, um wichtige Beziehungen zu ermitteln und den Systemumfang zu definieren
Statistik / Ökonometrie
- Explorative Datenanalyse für kontinuierliche und kategoriale Daten
- Spezifikation und Schätzung von Strukturmodellgleichungen für Unternehmens- und Verbraucherverhalten, Produktionskosten, Faktornachfrage, diskrete Auswahl und andere Technologiebeziehungen nach Bedarf
- Fortgeschrittene statistische Techniken zur Analyse kontinuierlicher und kategorialer Daten
- Zeitreihenanalyse und Implementierung von Prognosemodellen
- Kenntnisse und Erfahrungen in der Arbeit mit mehreren Variablen Probleme
- Fähigkeit zur Beurteilung der Modellkorrektheit und Durchführung diagnostischer Tests
- Fähigkeit zur Interpretation von Statistiken oder Wirtschaftsmodellen
- Kenntnisse und Erfahrungen in der Erstellung diskreter Ereignissimulationen und dynamischer Simulationsmodelle
Datenmanagement
- Vertrautheit mit der Verwendung von T-SQL und Analytics zur Datentransformation und der Anwendung explorativer Datenanalysetechniken für sehr große reale Datensätze
- Achtung der Datenintegrität, einschließlich Datenredundanz, Datengenauigkeit, abnormalen oder extremen Werten, Dateninteraktionen und fehlenden Werten.
Kommunikations- und Kollaborationsfähigkeiten
- Arbeiten Sie unabhängig und in der Lage, mit einem virtuellen Projektteam zusammenzuarbeiten, das nach innovativen Lösungen für herausfordernde Geschäftsprobleme sucht
- Arbeiten Sie mit Partnern zusammen, wenden Sie Fähigkeiten zum kritischen Denken an und treiben Sie Analyseprojekte durchgängig voran
- Hervorragende mündliche und schriftliche Kommunikationsfähigkeiten
- Visualisierung der Analyseergebnisse in einer Form, die von einer Vielzahl von Interessengruppen genutzt werden kann
Softwarepakete
- Erweiterte statistische / ökonometrische Softwarepakete: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Datenexploration, -visualisierung und -verwaltung: T-SQL, Excel, PowerBI und gleichwertige Tools
Qualifikationen:
- Mindestens 5 Jahre einschlägige Erfahrung erforderlich
- Ein Aufbaustudium im quantitativen Bereich ist wünschenswert.
quelle
Antworten:
Es gibt ein paar humorvolle Definitionen, die noch nicht gegeben wurden:
Ich mag dieses hier, da es sich gut auf den Mehr-Hype-als-Substanz-Winkel auswirkt.
Ebenso schmecken diese Riffs an der Westküste von alledem.
Persönlich finde ich die Diskussion (im Allgemeinen und hier) etwas langweilig und repetitiv. Als ich darüber nachdachte, was ich wollte - vielleicht vor einem Vierteljahrhundert oder länger -, zielte ich auf einen quantitativen Analysten ab. Das ist immer noch das, was ich tue (und liebe!) Und es überlappt und deckt größtenteils das ab, was hier in verschiedenen Antworten gegeben wurde.
(Hinweis: Es gibt eine ältere Quelle für Zitat zwei, aber ich kann es derzeit nicht finden.)
quelle
I find the discussion (in general, and here) somewhat boring and repetitive
und vergebliche Rede von Kleinigkeiten oder neuen summenden Wörtern, würde ich hinzufügen. Ich kann danach immer noch nicht zwischen Datenwissenschaftlern, christlichen Wissenschaftlern und Datenwissenschaftlern unterscheiden.Die Leute definieren Data Science anders, aber ich denke, der gemeinsame Teil ist:
Im Gegensatz zu seinem Namen ist es selten "Wissenschaft". Das heißt, in der Datenwissenschaft liegt der Schwerpunkt auf praktischen Ergebnissen (wie im Ingenieurwesen), nicht auf Beweisen, mathematischer Reinheit oder Genauigkeit, die für die akademische Wissenschaft charakteristisch sind. Die Dinge müssen funktionieren, und es gibt kaum einen Unterschied, ob es sich um eine wissenschaftliche Arbeit, die Verwendung einer vorhandenen Bibliothek, Ihren eigenen Code oder einen spontanen Hack handelt.
Statistiker ist kein Programmierer erforderlich (kann Stift & Papier und eine spezielle Software verwenden). Außerdem haben einige Stellenausschreibungen in der Datenwissenschaft nichts mit Statistik zu tun. ZB ist es Data Engineering wie das Verarbeiten von Big Data, auch wenn die fortschrittlichste Mathematik dort den Durchschnitt berechnet (persönlich würde ich diese Aktivität jedoch nicht "Data Science" nennen). Darüber hinaus ist "Data Science" gehypt, so dass tangential verwandte Jobs diesen Titel verwenden - um die Bewerber zu locken oder das Ego der gegenwärtigen Arbeiter zu wecken.
Ich mag die Taxonomie von Michael Hochsters Antwort auf Quora :
In diesem Sinne ist Type A Data Scientist ein Statistiker, der programmieren kann. Aber auch für den quantitativen Teil gibt es Menschen mit mehr Hintergrundwissen in der Informatik (z. B. maschinelles Lernen) als normale Statistiken oder solche, die sich z. B. auf die Datenvisualisierung konzentrieren.
Und das Data Science Venn-Diagramm (hier: Hacking ~ Programmierung):
siehe auch alternative Venn-Diagramme ( dies und das ). Oder sogar ein humorvoller Tweet mit einer ausgewogenen Liste typischer Fähigkeiten und Aktivitäten eines Datenwissenschaftlers:
Siehe auch diesen Beitrag: Data Scientist - Statistiker, Programmierer, Berater und Visualisierer? .
quelle
Es gibt eine Reihe von Umfragen im Bereich Data Science. Ich mag dieses , weil es versucht, die Profile von Menschen zu analysieren, die tatsächlich datenwissenschaftliche Berufe ausüben. Anstatt anekdotische Beweise oder Vorurteile des Autors zu verwenden, verwenden sie datenwissenschaftliche Techniken, um die DNA von Datenwissenschaftlern zu analysieren.
Es ist ziemlich aufschlussreich, sich die Fähigkeiten anzusehen, die von Datenwissenschaftlern aufgeführt werden. Beachten Sie, dass die Top-20-Skills viele IT-Skills enthalten.
AKTUALISIEREN:
Wenn Sie promovieren, sind Sie höchstwahrscheinlich bereits Wissenschaftler, insbesondere, wenn Sie Artikel veröffentlicht und aktiv geforscht haben. Sie müssen jedoch kein Wissenschaftler sein, um ein Datenwissenschaftler zu sein. Einige Firmen, wie Walmart (siehe unten), in denen ein Doktortitel erforderlich ist, haben bestimmte Funktionen inne, aber in der Regel verfügen Datenwissenschaftler über einen BS- und MS-Abschluss, wie aus den folgenden Beispielen hervorgeht.
Wie Sie der obigen Tabelle entnehmen können, müssen Sie höchstwahrscheinlich über gute Programmier- und Datenverarbeitungskenntnisse verfügen. Darüber hinaus ist die Datenwissenschaft häufig mit einer gewissen, oftmals "tiefen" Kompetenz im maschinellen Lernen verbunden. Sie können sich sicherlich als Datenwissenschaftler bezeichnen, wenn Sie einen Doktortitel in Statistik haben. Die Promotion in Informatik an Top-Schulen ist jedoch möglicherweise wettbewerbsfähiger als Absolventen von Statistiken, da diese über ziemlich gute Kenntnisse in angewandter Statistik verfügen, die durch gute Programmierkenntnisse ergänzt werden - eine von Arbeitgebern nachgefragte Kombination. Um ihnen entgegenzuwirken, müssen Sie starke Programmierkenntnisse erwerben, damit Sie in einem ausgewogenen Verhältnis sehr wettbewerbsfähig sind. Interessant ist, dass in der Regel alle stat-Doktoranden über Programmiererfahrung verfügen, aber in der Datenwissenschaft ist die Anforderung oft viel höher.
Für mich liegt der Vorteil einer Promotion in Statistik in dem Problem, das im Rest des Satzes "Alleskönner" zum Ausdruck kommt, der normalerweise fallengelassen wird: "Ein Meister der Keinen". Es ist gut, Leute zu haben, die ein bisschen von allem wissen, aber ich suche immer Leute, die auch etwas gründliches wissen, egal ob Statistik oder Informatik nicht so wichtig sind. Was zählt, ist, dass der Typ in der Lage ist, auf den Grund zu gehen, es ist eine praktische Eigenschaft, wenn Sie es brauchen.
Die Umfrage listet auch die Top-Arbeitgeber von Datenwissenschaftlern auf. Microsoft ist anscheinend ganz oben, was mich überrascht hat. Wenn Sie eine bessere Vorstellung davon haben möchten, wonach sie suchen, ist es hilfreich, LinkeIn mit "Data Science" im Bereich "Jobs" zu durchsuchen. Im Folgenden finden Sie zwei Auszüge aus den Stellenangeboten von MS und Walmart bei LinkedIn, um einen Punkt zu machen.
Microsoft Data Scientist
Beachten Sie, dass die Kenntnis von stat-Paketen nur von Vorteil ist, aber hervorragende Programmierkenntnisse in Java vorausgesetzt werden.
Walmart, Datenwissenschaftler
Hier wird die Promotion bevorzugt, jedoch nur der Schwerpunkt Informatik genannt. Distributed Computing mit Hadoop oder Spark ist wahrscheinlich eine ungewöhnliche Fähigkeit für einen Statistiker, aber einige theoretische Physiker und angewandte Mathematiker verwenden ähnliche Tools.
UPDATE 2:
"Es ist schon Zeit, den Titel" Data Scientist "zu töten", sagt Thomas Davenport, der 2012 den Artikel "Data Scientist: Der sexyste Job des 21. Jahrhunderts" mit dem Titel "Data Scientist: Der Wahnsinn der Data Scientists" schrieb :
quelle
Irgendwo habe ich das gelesen (EDIT: Josh Will erklärt seinen Tweet ):
Dieses Zitat kann in Kürze durch diesen datenwissenschaftlichen Prozess erklärt werden . Der erste Blick auf dieses Schema sieht aus wie "Nun, wo ist der Programmierteil?", Aber wenn Sie Tonnen von Daten haben, müssen Sie in der Lage sein, diese zu verarbeiten.
quelle
Ich habe mehrere Antworten geschrieben, und jedes Mal, wenn sie lang wurden, entschied ich mich schließlich für eine Seifenkiste. Aber ich denke, dass dieses Gespräch zwei wichtige Faktoren nicht vollständig untersucht hat:
Die Wissenschaft in der Datenwissenschaft. Ein wissenschaftlicher Ansatz ist ein Ansatz, bei dem Sie versuchen, Ihre eigenen Modelle, Theorien, Merkmale, Techniken usw. zu zerstören, und nur wenn Sie dies nicht tun, akzeptieren Sie, dass Ihre Ergebnisse möglicherweise nützlich sind. Es ist eine Denkweise und viele der besten Data Scientists, die ich getroffen habe, haben einen naturwissenschaftlichen Hintergrund (Chemie, Biologie, Ingenieurwesen).
Data Science ist ein weites Feld. Zu einem guten Data Science-Ergebnis gehört in der Regel ein kleines Team von Data Scientists mit jeweils eigenen Fachgebieten. Zum Beispiel ist ein Teammitglied strenger und statistischer, ein anderes ist ein besserer Programmierer mit einem technischen Hintergrund und ein anderes ist ein starker Berater mit Geschäftssinn. Alle drei sind schnell mit dem Thema vertraut, und alle drei sind neugierig und möchten die Wahrheit herausfinden - wie schmerzhaft sie auch sein mag - und das tun, was im besten Interesse des (internen oder externen) Kunden ist, auch wenn der Kunde es nicht tut. ich verstehe nicht.
Die Modeerscheinung in den letzten Jahren - ich glaube, sie ist verblasst - besteht darin, Computerwissenschaftler zu rekrutieren, die sich mit Cluster-Technologien (Hadoop-Ökosystem usw.) auskennen und sagen, dass dies der ideale Data Scientist ist. Ich denke, das ist es, worauf das OP gestoßen ist, und ich würde dem OP raten, ihre Stärken in Strenge, Korrektheit und wissenschaftlichem Denken zu stärken.
quelle
Ich denke, Bitwise deckt den größten Teil meiner Antwort ab, aber ich werde meine 2c hinzufügen.
Nein, es tut mir leid, aber ein Statistiker ist kein Datenwissenschaftler, zumindest basierend darauf, wie die meisten Unternehmen die Rolle heute definieren. Beachten Sie, dass sich die Definition im Laufe der Zeit geändert hat und eine Herausforderung für die Praktiker darin besteht, sicherzustellen, dass sie relevant bleiben.
Ich werde einige allgemeine Gründe dafür nennen, warum wir Kandidaten für "Data Scientist" -Rollen ablehnen:
Natürlich kann man für eine Junior-Rolle nicht alles haben. Aber wie viele dieser Fähigkeiten können Sie sich leisten, wenn Sie den Job verpassen und übernehmen?
Schließlich ist der häufigste Grund für die Ablehnung von Nicht-Statistikern genau das Fehlen selbst grundlegender Statistikkenntnisse. Und irgendwo gibt es den Unterschied zwischen einem Dateningenieur und einem Datenwissenschaftler. Dateningenieure bewerben sich jedoch in der Regel für diese Rollen, da sie häufig der Ansicht sind, dass "Statistiken" nur der Durchschnitt, die Varianz und die Normalverteilung sind. Deshalb können wir einige relevante, aber beängstigende statistische Schlagworte in die Stellenbeschreibungen aufnehmen, um zu verdeutlichen, was wir unter "Statistik" verstehen, und Verwirrung zu vermeiden.
quelle
Gestatten Sie mir, den Hype und die Schlagworte zu ignorieren. Ich denke, "Data Scientist" (oder wie auch immer Sie es nennen wollen) ist eine echte Sache und das unterscheidet sich von einem Statistiker. Es gibt viele Arten von Positionen, bei denen es sich effektiv um Datenwissenschaftler handelt, denen dieser Name jedoch nicht gegeben ist. Ein Beispiel sind Personen, die in der Genomik arbeiten.
Aus meiner Sicht ist ein Datenwissenschaftler jemand, der über die Fähigkeiten und das Fachwissen verfügt, um große Mengen komplexer Daten zu entwerfen und zu untersuchen (z. B. hochdimensionale Daten, bei denen die zugrunde liegenden Mechanismen unbekannt und komplex sind).
Das heisst:
quelle
Alle guten Antworten, jedoch habe ich in meiner Berufserfahrung festgestellt, dass der Begriff "Data Scientist" in den Köpfen der Personalvermittler, mit denen ich Kontakt hatte, mit "Junior Data Analyst" verwechselt wurde. Daher bezeichnen sich viele nette Leute ohne statistische Erfahrung, abgesehen von dem Ein-Semester-Einführungskurs, den sie vor ein paar Jahren gemacht haben, selbst als Datenwissenschaftler. Als jemand mit einem Informatikhintergrund und jahrelanger Erfahrung als Datenanalyst habe ich später in meiner Karriere über Statistik promoviert und dachte, es würde mir helfen, mich von der Masse abzuheben. Ich befinde mich in einer unerwartet großen Masse von "Datenwissenschaftlern" ". Ich denke, dass ich zu "Statistiker" zurückkehren könnte!
quelle
Ich bin ein junger Angestellter, aber meine Berufsbezeichnung lautet "Data Scientist". Ich denke, die Antwort von Bitwise beschreibt treffend, wofür ich eingestellt wurde, aber ich möchte einen weiteren Punkt hinzufügen, der auf meiner täglichen Erfahrung bei der Arbeit basiert:
Wissenschaft ist ein Forschungsprozess. Wenn Daten das Mittel sind, mit dem diese Abfrage durchgeführt wird, geschieht Data Science. Das bedeutet nicht, dass jeder, der mit Daten experimentiert oder forscht, notwendigerweise ein Datenwissenschaftler ist, genauso wie nicht jeder, der mit Verkabelung experimentiert oder forscht, notwendigerweise ein Elektrotechniker ist. Dies bedeutet jedoch, dass man eine ausreichende Ausbildung erwerben kann, um ein professioneller "Datenabfrager" zu werden, genauso wie man eine ausreichende Ausbildung erwerben kann, um ein professioneller Elektriker zu werden. Dieses Training besteht mehr oder weniger aus den Punkten in der Antwort von Bitwise, von denen die Statistik eine Komponente, aber nicht die Gesamtheit ist.
Piotrs Antwort ist auch eine schöne Zusammenfassung aller Dinge, die ich
tun muss, wennich wüsste, wie ich in einer bestimmten Woche vorgehen soll. Bisher habe ich hauptsächlich dazu beigetragen, die Schäden von ehemaligen Mitarbeitern, die zur Komponente "Gefahrenzone" des Venn-Diagramms gehörten, rückgängig zu machen.quelle
Ich interessiere mich seit kurzem auch für Data Science als Karriereberater. Als ich überlegte, was ich im Vergleich zu den zahlreichen Statistikkursen, an denen ich teilgenommen habe (und die ich genossen habe!), Über Data Science gelernt hatte, begann ich, an Data Scientists zu denken Informatiker, die sich mit Daten beschäftigten. Insbesondere habe ich die folgenden Hauptunterschiede festgestellt. Beachten Sie jedoch, dass die Unterschiede Stimmung erscheinen. Das Folgende spiegelt nur meine subjektiven Eindrücke wider und ich beanspruche keine Allgemeinheit. Nur meine Eindrücke!
In der Statistik interessieren Sie sich sehr für Verteilungen, Wahrscheinlichkeiten und Inferenzverfahren (wie man Hypothesentests durchführt, die die zugrunde liegenden Verteilungen sind usw.). Soweit ich weiß, geht es in der Datenwissenschaft mehr oder weniger um Vorhersage, und die Sorge um inferentielle Aussagen wird in gewissem Maße von Verfahren aus der Informatik wie der Kreuzvalidierung absorbiert.
In statistischen Kursen habe ich oft nur meine eigenen Daten erstellt oder einige fertige Daten verwendet, die in einem recht sauberen Format verfügbar sind. Das heißt, es hat ein schönes rechteckiges Format, eine Excel-Tabelle oder so etwas, das gut in den Arbeitsspeicher passt. Datenbereinigung ist sicherlich ein Thema, aber ich musste mich nie mit dem "Extrahieren" von Daten aus dem Web befassen, geschweige denn mit Datenbanken, die eingerichtet werden mussten, um eine Datenmenge zu speichern, die nicht mehr in den Arbeitsspeicher passt. Mein Eindruck ist, dass dieser rechnerische Aspekt in der Datenwissenschaft viel dominanter ist.
Vielleicht spiegelt dies meine Unkenntnis darüber wider, was Statistiker in typischen statistischen Berufen tun, aber vor der Datenwissenschaft habe ich nie daran gedacht, Modelle in ein größeres Produkt zu integrieren. Es musste eine Analyse durchgeführt werden, ein statistisches Problem musste gelöst werden, einige Parameter mussten geschätzt werden, und das war's. In der Datenwissenschaft scheinen oft (wenn auch nicht immer) Vorhersagemodelle in ein größeres Etwas eingebaut zu sein. Wenn Sie beispielsweise auf eine beliebige Stelle klicken, hat ein Vorhersagealgorithmus innerhalb von Millisekunden entschieden, was als Ergebnis angezeigt wird. Während ich mich in der Statistik immer gefragt habe, "welche Parameter können wir schätzen und wie machen wir das elegant", scheint es, dass in der Datenwissenschaft der Fokus mehr auf "was können wir vorhersagen, das in einem Datenprodukt möglicherweise nützlich ist" liegt. .
Auch hier wird nicht versucht, eine allgemeine Definition zu geben. Ich weise nur auf die Hauptunterschiede hin, die ich selbst wahrgenommen habe. Ich bin noch nicht in Data Science, hoffe aber, dass ich im nächsten Jahr übergehen kann. In diesem Sinne nimm meine zwei Cent hier mit einem Körnchen Salz.
quelle
Ich sage, ein Data Scientist ist eine Rolle, bei der man für Unternehmen lesbare Ergebnisse erzielt, indem man die Methoden verwendet, um das Ergebnis statistisch solide (signifikant) zu machen.
Wenn ein Teil dieser Definition nicht befolgt wird, sprechen wir entweder von einem Entwickler, einem echten Wissenschaftler / Statistiker oder einem Dateningenieur.
quelle
Ich gehe immer gerne auf das Wesentliche ein.
quelle
Data Science ist eine multidisziplinäre Mischung aus Dateninferenz, Algorithmenentwicklung und Technologie, um analytisch komplexe Probleme zu lösen. Aufgrund des Mangels an Data Scientists kann eine Karriere in der Datenwissenschaft jedoch zahlreiche Möglichkeiten eröffnen. Unternehmen suchen jedoch zertifizierte Fachkräfte von SAS, dem Data Science Council of America (DASCA), Hortonworks usw. Wir hoffen, dass dies eine gute Information ist!
quelle
Datenwissenschaftler verfügen über sehr gute Kenntnisse in der Python-, MySQL- und Java-Entwicklung.
Sie haben ein sehr klares Verständnis der analytischen Funktionen, sind sehr gut in Mathematik, Statistik, Data Mining und prädiktiven Analysefähigkeiten und sie haben auch sehr gute Kenntnisse der Codierungssprachen wie Python und R.
Viele Datenwissenschaftler haben gerade ihren Doktortitel. oder ihr Master-Abschluss hat laut Forschung nur etwa 8% einfach einen Bachelor-Abschluss, es ist also viel tiefergehend.
Aufbau statistischer Modelle, die Entscheidungen auf der Grundlage von Daten treffen. Jede Entscheidung kann hart sein, z. B. das Rendern einer Seite blockieren, oder weich sein, z. B. eine Punktzahl für die Bösartigkeit einer Seite zuweisen, die von nach unten gerichteten Systemen oder Menschen verwendet wird.
Durchführung von Kausalitätsexperimenten, bei denen versucht wird, die Ursache eines beobachteten Phänomens zu bestimmen. Dies kann durch den Entwurf von A / B-Experimenten geschehen oder wenn es nicht möglich ist, einen epidemiologischen Ansatz auf das Problem anzuwenden, z. B. das @ Rubin-Kausalmodell
Identifizierung neuer Produkte oder Funktionen, die sich aus der Erschließung des Werts von Daten ergeben; ein Vordenker über den Wert von Daten sein. Ein gutes Beispiel dafür sind die Produktempfehlungen, die Amazon erstmals einem breiten Publikum zur Verfügung stellte.
quelle
So beantworten Sie Ihre Frage: "Was ist ein Datenwissenschaftler?" Es kann sich lohnen, den Unterschied zwischen einem Data Scientist und einem Data Mechanic zu kennen, wie in http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/ angegeben.
quelle