Was ist ein Datenwissenschaftler?

181

Nachdem ich kürzlich mein Doktorandenprogramm in Statistik abgeschlossen hatte, hatte ich in den letzten Monaten begonnen, nach einer Arbeit im Bereich Statistik zu suchen. Fast jedes Unternehmen, das ich in Betracht zog, hatte eine Stellenanzeige mit der Berufsbezeichnung " Data Scientist ". Tatsächlich fühlte es sich so an, als wären die Tage, in denen man Berufsbezeichnungen von Statistical Scientist oder Statistician sah, lange vorbei . Hatte ein Data Scientist wirklich das ersetzt, was ein Statistiker war, oder fragte ich mich auch, welche Titel er trug?

Nun, die meisten Qualifikationen für die Jobs fühlten sich wie Dinge an, die sich unter dem Titel Statistiker qualifizieren würden. Die meisten Jobs wollten einen Doktortitel in Statistik ( ), die meisten benötigten Kenntnisse in experimentellem Design ( ), linearer Regression und Anova ( ), verallgemeinerten linearen Modellen ( ) und anderen multivariaten Methoden wie PCA ( ). sowie Kenntnisse in einer statistischen Computerumgebung wie R oder SAS ( ). Klingt so, als wäre ein Datenwissenschaftler eigentlich nur ein Codename für einen Statistiker.

Allerdings begann jedes Interview mit der Frage: "Kennen Sie sich mit Algorithmen für maschinelles Lernen aus?" In den meisten Fällen musste ich versuchen, Fragen zu Big Data, High Performance Computing und Themen zu neuronalen Netzen, CART, Support-Vektor-Maschinen, Boosten von Bäumen, unbeaufsichtigten Modellen usw. zu beantworten Im Grunde genommen statistische Fragen, aber am Ende jedes Interviews konnte ich nicht anders, als das Gefühl zu verlieren, ich wüsste immer weniger, was ein Datenwissenschaftler ist.

Ich bin ein Statistiker, aber bin ich ein Datenwissenschaftler? Ich arbeite an wissenschaftlichen Problemen, also muss ich Wissenschaftler sein! Und ich arbeite auch mit Daten, also muss ich ein Datenwissenschaftler sein! Und laut Wikipedia stimmen mir die meisten Akademiker zu ( https://en.wikipedia.org/wiki/Data_science , etc.)

Obwohl die Verwendung des Begriffs "Data Science" im Geschäftsumfeld explodiert ist, sehen viele Wissenschaftler und Journalisten keinen Unterschied zwischen Data Science und Statistik.

Aber wenn ich all diese Vorstellungsgespräche für eine Position als Datenwissenschaftler absolviere, warum fühlt es sich dann so an, als würden sie mir niemals statistische Fragen stellen?

Nun, nach meinem letzten Interview wollte ich, dass ein guter Wissenschaftler es tut, und ich suchte nach Daten, um dieses Problem zu lösen (hey, ich bin schließlich ein Datenwissenschaftler). Nach unzähligen Suchanfragen bei Google hatte ich jedoch das Gefühl, dass ich mich erneut mit der Definition eines Data Scientists auseinandersetzte. Ich wusste nicht, was ein Data Scientist genau ist, da es so viele Definitionen dafür gibt ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) aber anscheinend sagten mir alle, dass ich einer sein wollte:

Am Ende des Tages stellte ich fest, dass "Was ist ein Datenwissenschaftler?" Eine sehr schwer zu beantwortende Frage ist. Heck, es gab zwei ganze Monate in Amstat, in denen sie Zeit darauf verwendet haben, diese Frage zu beantworten:

Nun, ich muss ein sexy Statistiker sein, um ein Datenwissenschaftler zu sein, aber hoffentlich kann die Cross-Validated-Community etwas Licht ins Dunkel bringen und mir helfen, zu verstehen, was es bedeutet, ein Datenwissenschaftler zu sein. Sind nicht alle Statistiker Datenwissenschaftler?


(Bearbeiten / Aktualisieren)

Ich dachte, das könnte die Unterhaltung aufpeppen. Ich habe gerade eine E-Mail von der American Statistical Association erhalten, in der es um eine Stelle bei Microsoft geht, die einen Data Scientist sucht. Hier ist der Link: Data Scientist Position . Ich halte dies für interessant, da die Rolle der Position auf viele spezifische Merkmale zutrifft, über die wir gesprochen haben, aber ich denke, viele von ihnen erfordern einen sehr strengen Hintergrund in der Statistik und widersprechen auch vielen der unten aufgeführten Antworten. Falls der Link nicht mehr funktioniert, finden Sie hier die Eigenschaften, die Microsoft von einem Datenwissenschaftler erwartet:

Grundlegende Berufsanforderungen und Fähigkeiten:

Business Domain-Erfahrung mit Analytics

  • Sie müssen Erfahrung in verschiedenen relevanten Geschäftsbereichen in der Nutzung kritischer Denkfähigkeiten zur Konzeption komplexer Geschäftsprobleme und ihrer Lösungen mithilfe fortschrittlicher Analysen in umfangreichen realen Geschäftsdatensätzen haben
  • Der Kandidat muss in der Lage sein, Analyseprojekte unabhängig durchzuführen und unseren internen Kunden dabei zu helfen, die Ergebnisse zu verstehen und sie in Maßnahmen umzusetzen, die ihrem Geschäft zugute kommen.

Vorausschauende Modellierung

  • Branchenübergreifende Erfahrung in der prädiktiven Modellierung
  • Geschäftsproblemdefinition und konzeptionelle Modellierung mit dem Kunden, um wichtige Beziehungen zu ermitteln und den Systemumfang zu definieren

Statistik / Ökonometrie

  • Explorative Datenanalyse für kontinuierliche und kategoriale Daten
  • Spezifikation und Schätzung von Strukturmodellgleichungen für Unternehmens- und Verbraucherverhalten, Produktionskosten, Faktornachfrage, diskrete Auswahl und andere Technologiebeziehungen nach Bedarf
  • Fortgeschrittene statistische Techniken zur Analyse kontinuierlicher und kategorialer Daten
  • Zeitreihenanalyse und Implementierung von Prognosemodellen
  • Kenntnisse und Erfahrungen in der Arbeit mit mehreren Variablen Probleme
  • Fähigkeit zur Beurteilung der Modellkorrektheit und Durchführung diagnostischer Tests
  • Fähigkeit zur Interpretation von Statistiken oder Wirtschaftsmodellen
  • Kenntnisse und Erfahrungen in der Erstellung diskreter Ereignissimulationen und dynamischer Simulationsmodelle

Datenmanagement

  • Vertrautheit mit der Verwendung von T-SQL und Analytics zur Datentransformation und der Anwendung explorativer Datenanalysetechniken für sehr große reale Datensätze
  • Achtung der Datenintegrität, einschließlich Datenredundanz, Datengenauigkeit, abnormalen oder extremen Werten, Dateninteraktionen und fehlenden Werten.

Kommunikations- und Kollaborationsfähigkeiten

  • Arbeiten Sie unabhängig und in der Lage, mit einem virtuellen Projektteam zusammenzuarbeiten, das nach innovativen Lösungen für herausfordernde Geschäftsprobleme sucht
  • Arbeiten Sie mit Partnern zusammen, wenden Sie Fähigkeiten zum kritischen Denken an und treiben Sie Analyseprojekte durchgängig voran
  • Hervorragende mündliche und schriftliche Kommunikationsfähigkeiten
  • Visualisierung der Analyseergebnisse in einer Form, die von einer Vielzahl von Interessengruppen genutzt werden kann

Softwarepakete

  • Erweiterte statistische / ökonometrische Softwarepakete: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Datenexploration, -visualisierung und -verwaltung: T-SQL, Excel, PowerBI und gleichwertige Tools

Qualifikationen:

  • Mindestens 5 Jahre einschlägige Erfahrung erforderlich
  • Ein Aufbaustudium im quantitativen Bereich ist wünschenswert.
RustyStatistician
quelle
6
Gute Frage! Darüber habe ich mich in letzter Zeit ziemlich oft gewundert. In meinen Augen scheinen Jobs, die Data Scientist in die Beschreibung einbeziehen, nach Leuten zu suchen, die statistische / ML-Methoden anwenden können, die sich gut skalieren lassen, und nicht unbedingt nach Leuten, die mit Theorie umgehen können. Ich denke immer noch, dass diese Stellenbeschreibungen eine gewisse Redundanz aufweisen. Die Forderung nach einem Doktortitel ist wahrscheinlich häufig eine Überqualifikation, und die HR-Mitarbeiter, die diese Stellenbeschreibungen erstellen, sind in hohem Maße vom Rummel um Big Data betroffen. Ist ein Datenwissenschaftler ein Statistiker oder umgekehrt ist die Hauptfrage, die ich beantwortet sehen möchte.
Gumeo
4
Ich denke, dies ist ein ausgezeichnetes Papier, das sich mit dieser Veränderung in den Kulturen von Statistikern und Datenwissenschaftlern befasst: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician
6
"Aber wenn ich all diese Vorstellungsgespräche für eine Position als Datenwissenschaftler absolviere, warum fühlt es sich dann so an, als würden sie mir niemals statistische Fragen stellen" ... Geschichte meines Lebens ... buchstäblich LOL !!! Ich denke, Data Science, Statistik, Ökonometrie, Biostat, .. etc. Sie haben erhebliche Überschneidungen, verwenden jedoch alle unterschiedliche Ausdrücke, was die Kommunikation erschwert (insbesondere, wenn Sie von einer Person aus der Personalabteilung befragt werden, die keine Kenntnisse besitzt und sich auf Schlüsselwörter konzentriert). Hoffentlich verstärkte interdisziplinäre Bemühungen und eine dringend benötigte Aufgeschlossenheit werden dies in Zukunft ändern.
Zachary Blumenfeld
9
Ich verfolge den "Aufstieg des Data Scientist", seit er etwa 2008 zum Mainstream wurde. Für mich war und ist es meist ein Marketingbegriff, der einen Hype auslöste - die Disziplinen Statistik, Maschinelles Lernen, Datentechnik und Datenanalyse sind alles das gleiche mit unterschiedlichen Schwerpunkten. Umschreibung von G. Box: Wenn Sie Fragen wie "Sind Sie ein Bayesianer, Frequentist, Datenanalytiker, Entwickler von Experimenten, Datenwissenschaftler?" Sag ja".
Momo
10
@Momo: Wenn man jedoch eines der mehr als 600 Seiten umfassenden Lehrbücher mit dem Titel "Maschinelles Lernen" (oder ähnlich) und eines der Lehrbücher mit dem Titel "Statistik" (oder ähnlich) öffnet, gibt es nur sehr geringe Überschneidungen. Die Mustererkennung und das maschinelle Lernen meines Bischofs oder das maschinelle Lernen von Murphy überschneiden sich nahezu nicht mit der Punktschätzungstheorie von Lehman & Casella, der statistischen Inferenz von Casella & Berger oder dem Entwerfen von Experimenten und dem Analysieren von Daten von Maxwell & Delaney . Sie sind so unterschiedlich, dass Leute, die mit einer Reihe von Büchern vertraut sind, möglicherweise Schwierigkeiten haben, die andere zu lesen.
Amöbe

Antworten:

52

Es gibt ein paar humorvolle Definitionen, die noch nicht gegeben wurden:

Data Scientist: Jemand, der Statistiken auf einem Mac erstellt.

Ich mag dieses hier, da es sich gut auf den Mehr-Hype-als-Substanz-Winkel auswirkt.

Datenwissenschaftler: Ein Statistiker, der in San Francisco lebt.

Ebenso schmecken diese Riffs an der Westküste von alledem.

Persönlich finde ich die Diskussion (im Allgemeinen und hier) etwas langweilig und repetitiv. Als ich darüber nachdachte, was ich wollte - vielleicht vor einem Vierteljahrhundert oder länger -, zielte ich auf einen quantitativen Analysten ab. Das ist immer noch das, was ich tue (und liebe!) Und es überlappt und deckt größtenteils das ab, was hier in verschiedenen Antworten gegeben wurde.

(Hinweis: Es gibt eine ältere Quelle für Zitat zwei, aber ich kann es derzeit nicht finden.)

Dirk Eddelbüttel
quelle
27
+1. I find the discussion (in general, and here) somewhat boring and repetitiveund vergebliche Rede von Kleinigkeiten oder neuen summenden Wörtern, würde ich hinzufügen. Ich kann danach immer noch nicht zwischen Datenwissenschaftlern, christlichen Wissenschaftlern und Datenwissenschaftlern unterscheiden.
TTNPHNS
1
LOL @ data Scientologen.
Dsaxton
4
Und ich gebe der (natürlich anonymen) sehr ernsten Person meinen Hut, die gerade vorbeikam, abstimmte und keinen Grund hinterließ. Hinweis: So verbessert sich die Diskussion nicht.
Dirk Eddelbuettel
1
Als Statistiker in South San Francisco, der sehr aktiv gegen den Titel Data Scientist kämpft, ist die zweite Definition zu nah dran (aber ich war nicht der Downvoter).
Cliff AB
1
(+1) @CliffAB Ich bin auch ein Statistiker in South San Francisco.
RustyStatistician
87

Die Leute definieren Data Science anders, aber ich denke, der gemeinsame Teil ist:

  • praktische Kenntnisse im Umgang mit Daten,
  • praktische Programmierkenntnisse.

Im Gegensatz zu seinem Namen ist es selten "Wissenschaft". Das heißt, in der Datenwissenschaft liegt der Schwerpunkt auf praktischen Ergebnissen (wie im Ingenieurwesen), nicht auf Beweisen, mathematischer Reinheit oder Genauigkeit, die für die akademische Wissenschaft charakteristisch sind. Die Dinge müssen funktionieren, und es gibt kaum einen Unterschied, ob es sich um eine wissenschaftliche Arbeit, die Verwendung einer vorhandenen Bibliothek, Ihren eigenen Code oder einen spontanen Hack handelt.

Statistiker ist kein Programmierer erforderlich (kann Stift & Papier und eine spezielle Software verwenden). Außerdem haben einige Stellenausschreibungen in der Datenwissenschaft nichts mit Statistik zu tun. ZB ist es Data Engineering wie das Verarbeiten von Big Data, auch wenn die fortschrittlichste Mathematik dort den Durchschnitt berechnet (persönlich würde ich diese Aktivität jedoch nicht "Data Science" nennen). Darüber hinaus ist "Data Science" gehypt, so dass tangential verwandte Jobs diesen Titel verwenden - um die Bewerber zu locken oder das Ego der gegenwärtigen Arbeiter zu wecken.

Ich mag die Taxonomie von Michael Hochsters Antwort auf Quora :

Typ A Data Scientist: Das A ist für die Analyse. Bei diesem Typ geht es in erster Linie darum, Daten zu verstehen oder relativ statisch damit zu arbeiten. Der Data Scientist vom Typ A ist einem Statistiker sehr ähnlich (und kann es auch sein), kennt jedoch alle praktischen Details des Arbeitens mit Daten, die nicht im Statistikcurriculum vermittelt werden: Datenbereinigung, Methoden für den Umgang mit sehr großen Datenmengen, Visualisierung , tiefes Wissen über eine bestimmte Domäne, gutes Schreiben über Daten und so weiter.

Typ B Data Scientist: Das B ist für Gebäude. Datenwissenschaftler vom Typ B haben einen ähnlichen statistischen Hintergrund wie Typ A, sie sind jedoch auch sehr gute Programmierer und möglicherweise geschulte Softwareingenieure. Der Data Scientist vom Typ B interessiert sich hauptsächlich für die Verwendung von Daten "in der Produktion". Er erstellt Modelle, die mit Benutzern interagieren und häufig Empfehlungen enthalten (Produkte, Personen, die Sie vielleicht kennen, Anzeigen, Filme, Suchergebnisse).

In diesem Sinne ist Type A Data Scientist ein Statistiker, der programmieren kann. Aber auch für den quantitativen Teil gibt es Menschen mit mehr Hintergrundwissen in der Informatik (z. B. maschinelles Lernen) als normale Statistiken oder solche, die sich z. B. auf die Datenvisualisierung konzentrieren.

Und das Data Science Venn-Diagramm (hier: Hacking ~ Programmierung):

Das Data Science Venn-Diagramm

siehe auch alternative Venn-Diagramme ( dies und das ). Oder sogar ein humorvoller Tweet mit einer ausgewogenen Liste typischer Fähigkeiten und Aktivitäten eines Datenwissenschaftlers:

Ein Datenwissenschaftler sollte in der Lage sein

Siehe auch diesen Beitrag: Data Scientist - Statistiker, Programmierer, Berater und Visualisierer? .

Piotr Migdal
quelle
14
Ich mag den Tweet. Ich würde hinzufügen, dass er auch wissen sollte, wie man Pizza backt, ökologisches Gemüse anbaut, Gedichte schreibt und Salsa tanzt :)
Tim
3
Kleiner Streitpunkt: Nicht alle "Wissenschaften" legen Wert auf "Beweise oder mathematische Reinheit". Denken Sie zB an Biologie.
Amöbe
2
Was bedeutet es, einen p-Wert zu hacken? Mir scheint, dass jemand (auch bekannt als der Kunde) ein bestimmtes p-Wert-Ziel hat und der Datenwissenschaftler die Daten schneiden und würfeln soll, damit das p-Wert-Ziel erreicht werden kann. Oder soll es etwas anderes bedeuten?
Emory
2
@amory Dieser Tweet ist humoristisch (Es ist ein Pastishe eines Absatzes aus de.wikiquote.org/wiki/Time_Enough_for_Love , "Ein Mensch sollte in der Lage sein, [ aufzulisten ]. Spezialisierung ist für Insekten."). "Hack a p-value" ist sicherlich eine dunkle Praxis (leider in einigen akademischen Disziplinen weit verbreitet), und (ich hoffe) ist hier als Witz.
Piotr Migdal
4
+1 für die Bemerkung, dass man jemanden nicht als Data Scientist bezeichnen soll, der vereinfachte "Statistiken" für enorme Datensätze berechnet. Ich glaube, wir haben eine Phase der Datenwissenschaft hinter uns, in der Informatiker, die sich auf Cluster-Computing spezialisiert haben (Hadoop usw.), als "Data Scientists" bezeichnet wurden. Ich schaue nicht auf diese Fähigkeiten herab, aber sie sind bei weitem nicht so wichtig wie statistische / logische / Ermittlungsfähigkeiten, und die Technologie geht über die Kartenreduzierung hinaus.
Wayne
42

Es gibt eine Reihe von Umfragen im Bereich Data Science. Ich mag dieses , weil es versucht, die Profile von Menschen zu analysieren, die tatsächlich datenwissenschaftliche Berufe ausüben. Anstatt anekdotische Beweise oder Vorurteile des Autors zu verwenden, verwenden sie datenwissenschaftliche Techniken, um die DNA von Datenwissenschaftlern zu analysieren.

Es ist ziemlich aufschlussreich, sich die Fähigkeiten anzusehen, die von Datenwissenschaftlern aufgeführt werden. Beachten Sie, dass die Top-20-Skills viele IT-Skills enthalten.

In der heutigen Welt wird erwartet, dass ein Datenwissenschaftler ein Alleskönner ist. Ein Selbstlernender mit einer soliden quantitativen Grundlage, einer Fähigkeit zum Programmieren, einer unendlichen intellektuellen Neugier und großartigen Kommunikationsfähigkeiten.

Bildbeschreibung hier eingeben

AKTUALISIEREN:

Ich bin ein Statistiker, aber bin ich ein Datenwissenschaftler? Ich arbeite an wissenschaftlichen Problemen, also muss ich Wissenschaftler sein!

Wenn Sie promovieren, sind Sie höchstwahrscheinlich bereits Wissenschaftler, insbesondere, wenn Sie Artikel veröffentlicht und aktiv geforscht haben. Sie müssen jedoch kein Wissenschaftler sein, um ein Datenwissenschaftler zu sein. Einige Firmen, wie Walmart (siehe unten), in denen ein Doktortitel erforderlich ist, haben bestimmte Funktionen inne, aber in der Regel verfügen Datenwissenschaftler über einen BS- und MS-Abschluss, wie aus den folgenden Beispielen hervorgeht.

Wie Sie der obigen Tabelle entnehmen können, müssen Sie höchstwahrscheinlich über gute Programmier- und Datenverarbeitungskenntnisse verfügen. Darüber hinaus ist die Datenwissenschaft häufig mit einer gewissen, oftmals "tiefen" Kompetenz im maschinellen Lernen verbunden. Sie können sich sicherlich als Datenwissenschaftler bezeichnen, wenn Sie einen Doktortitel in Statistik haben. Die Promotion in Informatik an Top-Schulen ist jedoch möglicherweise wettbewerbsfähiger als Absolventen von Statistiken, da diese über ziemlich gute Kenntnisse in angewandter Statistik verfügen, die durch gute Programmierkenntnisse ergänzt werden - eine von Arbeitgebern nachgefragte Kombination. Um ihnen entgegenzuwirken, müssen Sie starke Programmierkenntnisse erwerben, damit Sie in einem ausgewogenen Verhältnis sehr wettbewerbsfähig sind. Interessant ist, dass in der Regel alle stat-Doktoranden über Programmiererfahrung verfügen, aber in der Datenwissenschaft ist die Anforderung oft viel höher.

Für mich liegt der Vorteil einer Promotion in Statistik in dem Problem, das im Rest des Satzes "Alleskönner" zum Ausdruck kommt, der normalerweise fallengelassen wird: "Ein Meister der Keinen". Es ist gut, Leute zu haben, die ein bisschen von allem wissen, aber ich suche immer Leute, die auch etwas gründliches wissen, egal ob Statistik oder Informatik nicht so wichtig sind. Was zählt, ist, dass der Typ in der Lage ist, auf den Grund zu gehen, es ist eine praktische Eigenschaft, wenn Sie es brauchen.

Die Umfrage listet auch die Top-Arbeitgeber von Datenwissenschaftlern auf. Microsoft ist anscheinend ganz oben, was mich überrascht hat. Wenn Sie eine bessere Vorstellung davon haben möchten, wonach sie suchen, ist es hilfreich, LinkeIn mit "Data Science" im Bereich "Jobs" zu durchsuchen. Im Folgenden finden Sie zwei Auszüge aus den Stellenangeboten von MS und Walmart bei LinkedIn, um einen Punkt zu machen.

  • Microsoft Data Scientist

    • Über 5 Jahre Erfahrung in der Softwareentwicklung beim Aufbau von Datenverarbeitungssystemen / -diensten
    • Bachelor oder höhere Qualifikationen in Informatik, EE oder Mathematik mit Spezialisierung in Statistik, Data Mining oder maschinellem Lernen.
    • Hervorragende Programmierkenntnisse (C #, Java, Python usw.) bei der Bearbeitung großer Datenmengen
    • Grundkenntnisse in Hadoop oder einer anderen Big Data-Verarbeitungstechnologie
    • Kenntnisse über Analytics-Produkte (z. B. R, SQL AS, SAS, Mahout usw.) sind von Vorteil.

Beachten Sie, dass die Kenntnis von stat-Paketen nur von Vorteil ist, aber hervorragende Programmierkenntnisse in Java vorausgesetzt werden.

  • Walmart, Datenwissenschaftler

    • Promotion in Informatik oder einem ähnlichen Bereich oder MS mit mindestens 2-5 Jahren verwandter Erfahrung
    • Gute funktionale Codierkenntnisse in C ++ oder Java (Java wird sehr bevorzugt)
    • muss in der Lage sein, bis zu 10% des täglichen Arbeitstages für das Schreiben von Produktionscode in C ++ / Java / Hadoop / Hive aufzuwenden
    • Expertenwissen in einer der Skriptsprachen wie Python oder Perl.
    • Erfahrung im Umgang mit großen Datenmengen und verteilten Rechenwerkzeugen von Vorteil (Map / Reduce, Hadoop, Hive, Spark usw.)

Hier wird die Promotion bevorzugt, jedoch nur der Schwerpunkt Informatik genannt. Distributed Computing mit Hadoop oder Spark ist wahrscheinlich eine ungewöhnliche Fähigkeit für einen Statistiker, aber einige theoretische Physiker und angewandte Mathematiker verwenden ähnliche Tools.

UPDATE 2:

"Es ist schon Zeit, den Titel" Data Scientist "zu töten", sagt Thomas Davenport, der 2012 den Artikel "Data Scientist: Der sexyste Job des 21. Jahrhunderts" mit dem Titel "Data Scientist: Der Wahnsinn der Data Scientists" schrieb :

Was bedeutet es heute zu sagen, dass Sie ein „Data Scientist“ sind oder sein wollen oder einstellen wollen? Leider nicht viel.

Aksakal
quelle
3
+1 für die Verwendung von Daten und die Verknüpfung mit einem netten datengesteuerten Bericht. Aber braucht der Screenshot eine Webbrowser-Oberfläche?
Piotr Migdal
@PiotrMigdal, ich sollte lernen zu beschneiden oder aufhören faul zu sein
Aksakal
4
Ich habe es für dich zugeschnitten.
Amöbe
1
Ich bin versucht, nach dem heutigen Update ein Downvot durchzuführen: Dieser Thread ist bereits sehr beschäftigt und es ist meiner Meinung nach nicht sehr hilfreich, eine gigantische Anzahl von Zitaten zum Scrollen zu haben ... Vielleicht könnten die Links + eine kurze Zusammenfassung ausreichen?
Amöbe
1
@amoeba, ich habe die Liste gestrippt. Es ist ein fairer Kommentar
Aksakal
39

Irgendwo habe ich das gelesen (EDIT: Josh Will erklärt seinen Tweet ):

Data Scientist ist eine Person, die sich mit Statistik besser auskennt als jeder andere Programmierer und besser mit Programmierung als jeder andere Statistiker.

Dieses Zitat kann in Kürze durch diesen datenwissenschaftlichen Prozess erklärt werden . Der erste Blick auf dieses Schema sieht aus wie "Nun, wo ist der Programmierteil?", Aber wenn Sie Tonnen von Daten haben, müssen Sie in der Lage sein, diese zu verarbeiten.

user3624251
quelle
11
Also ist wahrscheinlich jeder R-Mitarbeiter, der ein Statistiker ist, ein Datenwissenschaftler? ;)
Tim
15
Wow, ich war gerade auf der Website und habe mich über diese Frage gewundert ( vorausgesetzt , es gibt Datenwissen ) und dann im Vorbeigehen erfahren, dass ich eine verdammte Wikipedia-Seite habe ? Das war eine Neuigkeit für mich ... Und für das, was es wert ist, habe ich eine Ausbildung in Ökonometrie gemacht, keine Statistik, sondern arbeite seit über 20 Jahren als „Quant“. Das ist effektiv die gleiche wie Daten Wissenschaft ...
Dirk Eddelbuettel
3
-1. Ich habe nicht deshalb abgelehnt, weil ich das Zitat nicht mag (es war höchstwahrscheinlich sowieso eine Zunge in der Wange), sondern weil die Antwort zu kurz und nicht substanziell ist, insbesondere im Vergleich zu vielen anderen Antworten hier. Ich würde vorschlagen, dass es in einen Kommentar umgewandelt wird, es sei denn, Sie erweitern es irgendwie.
Amöbe
3
Hier ist eine Erklärung dieses Zitats von seinem Autor Josh Wills . Die ersten drei Absätze nach dem Zitat sind für diese Diskussion ziemlich relevant.
Amöbe
3
@amoeba: Ich mochte den Artikel von Josh Wills bis zu diesem Punkt: "Ich vermute, dass wir fortgeschrittene Statistiken in einer Weise lehren, die Informatiker abschreckt, indem wir uns auf parametrische Modelle konzentrieren, die viel Kalkül erfordern, anstatt auf nicht parametrische Modelle das sind in erster Linie rechnerisch ". Ich stimme ihm auch nicht zu, dass es einfacher ist, CS-Leuten fortgeschrittene Statistik beizubringen, als Statistikern eine gute Programmierung beizubringen (obwohl ich mit Sicherheit der Meinung bin, dass die meisten Statistiker schreckliche Programmierer sind).
Cliff AB
15

Ich habe mehrere Antworten geschrieben, und jedes Mal, wenn sie lang wurden, entschied ich mich schließlich für eine Seifenkiste. Aber ich denke, dass dieses Gespräch zwei wichtige Faktoren nicht vollständig untersucht hat:

  1. Die Wissenschaft in der Datenwissenschaft. Ein wissenschaftlicher Ansatz ist ein Ansatz, bei dem Sie versuchen, Ihre eigenen Modelle, Theorien, Merkmale, Techniken usw. zu zerstören, und nur wenn Sie dies nicht tun, akzeptieren Sie, dass Ihre Ergebnisse möglicherweise nützlich sind. Es ist eine Denkweise und viele der besten Data Scientists, die ich getroffen habe, haben einen naturwissenschaftlichen Hintergrund (Chemie, Biologie, Ingenieurwesen).

  2. Data Science ist ein weites Feld. Zu einem guten Data Science-Ergebnis gehört in der Regel ein kleines Team von Data Scientists mit jeweils eigenen Fachgebieten. Zum Beispiel ist ein Teammitglied strenger und statistischer, ein anderes ist ein besserer Programmierer mit einem technischen Hintergrund und ein anderes ist ein starker Berater mit Geschäftssinn. Alle drei sind schnell mit dem Thema vertraut, und alle drei sind neugierig und möchten die Wahrheit herausfinden - wie schmerzhaft sie auch sein mag - und das tun, was im besten Interesse des (internen oder externen) Kunden ist, auch wenn der Kunde es nicht tut. ich verstehe nicht.

Die Modeerscheinung in den letzten Jahren - ich glaube, sie ist verblasst - besteht darin, Computerwissenschaftler zu rekrutieren, die sich mit Cluster-Technologien (Hadoop-Ökosystem usw.) auskennen und sagen, dass dies der ideale Data Scientist ist. Ich denke, das ist es, worauf das OP gestoßen ist, und ich würde dem OP raten, ihre Stärken in Strenge, Korrektheit und wissenschaftlichem Denken zu stärken.

Wayne
quelle
@RustyStatistician: Gern geschehen. Ich möchte hinzufügen, dass das Beratungsunternehmen, für das ich arbeite, über einen Doktortitel (Ingenieurwesen, Biologie, Astronomie, Informatik) verfügt, in der Regel jedoch MS-Abschlüsse - häufig Menschen mit Berufserfahrung, die einen MS in Analytics erworben haben - als "Sweet Spot" betrachtet . Trotzdem bin ich jeden Tag dankbar für meinen promovierten Biologen, der derzeit an einem Projekt arbeitet, bei dem ich der technische Leiter bin. Zusammen mit dem Projektleiter mit wirtschaftswissenschaftlichem Hintergrund (und einem MS in Analytics) sind wir ein großartiges Team! (Meine MS ist in der künstlichen Intelligenz.)
Wayne
1, aber ich frage mich über Ihren ersten Punkt Kugel sagen , dass [gut] Daten Wissenschaft ist eine Wissenschaft. Wenn ja, ist es ein merkwürdiger und möglicherweise irreführender (?) Begriff, weil "Datenwissenschaft" nicht "Daten" an sich studiert; Es verwendet Daten, um etwas anderes zu untersuchen, was in einer bestimmten Anwendung von Interesse ist. Im Gegensatz dazu soll zB "Politikwissenschaft" Politik studieren und "Neurowissenschaft" Neuronen studieren, wie die Namen andeuten.
Amöbe
1
@amoeba: Eigentlich meinte ich, dass ein Data Scientist die wissenschaftliche Methode von Richard Feynman als Teil dessen verwenden muss, wie er Daten versteht und nutzt. (Wie Sie sagen, bei der Verfolgung einer bestimmten Anwendung.) Es ist der statistische Teil des Jobs: "Diese Variable scheint von großer Bedeutung zu sein - ist es ein Leck aus der Zukunft?" Oder "Dieses Modell scheint vernünftig zu sein, aber lassen Sie uns einen Lebenslauf über den gesamten Modellherstellungsprozess führen und dann darüber hinaus ein Resampling durchführen." Es ist schwer, Ihr Modell / Ihre Theorie zu widerlegen und andere daran zu beteiligen. Nicht akzeptieren "Green M & Ms verursachen Krebs".
Wayne
@Wayne ist der einzige, der bisher die "wissenschaftliche Methode" erwähnt. Das ist so traurig.
jgomo3
Ein Verständnis der Physik, insbesondere der Einheiten, ist für jeden notwendig, der versucht, irgendetwas zu verstehen. In unserer schönen neuen Welt ist es jedoch oft genug, heuristische Beobachtungen anzustellen, die als "Pfropfen" einen suboptimalen Vorhersagewert haben, aber keine wirklichen Lösungen darstellen.
Carl
14

Ich denke, Bitwise deckt den größten Teil meiner Antwort ab, aber ich werde meine 2c hinzufügen.

Nein, es tut mir leid, aber ein Statistiker ist kein Datenwissenschaftler, zumindest basierend darauf, wie die meisten Unternehmen die Rolle heute definieren. Beachten Sie, dass sich die Definition im Laufe der Zeit geändert hat und eine Herausforderung für die Praktiker darin besteht, sicherzustellen, dass sie relevant bleiben.

Ich werde einige allgemeine Gründe dafür nennen, warum wir Kandidaten für "Data Scientist" -Rollen ablehnen:

  • Erwartungen über den Umfang der Arbeit. Normalerweise muss der DS in der Lage sein, unabhängig zu arbeiten. Das heißt, es gibt niemanden, der den Datensatz für ihn erstellt, um das ihm zugewiesene Problem zu lösen. Er muss also in der Lage sein, die Datenquellen zu finden, sie abzufragen, eine Lösung zu modellieren und dann häufig auch einen Prototyp zu erstellen, der das Problem löst. In vielen Fällen handelt es sich lediglich um die Erstellung eines Dashboards, eines Alarms oder eines Live-Berichts, der ständig aktualisiert wird.
  • Kommunikation . Es scheint, dass viele Statistiker Schwierigkeiten haben, ihre Ideen an Geschäftsleute zu "vereinfachen" und zu "verkaufen". Können Sie nur ein Diagramm anzeigen und eine Geschichte aus den Daten so erzählen, dass sie jeder im Raum abrufen kann? Beachten Sie, dass Sie damit sicherstellen können, dass Sie jedes Detail der Analyse verteidigen können, wenn Sie dazu aufgefordert werden.
  • Programmierkenntnisse . Wir benötigen keine Programmierkenntnisse auf Produktionsebene, da wir Entwickler dafür haben. Sie muss jedoch in der Lage sein, einen Prototyp zu schreiben und ihn als Webdienst in einer AWS EC2-Instanz bereitzustellen. Programmierkenntnisse bedeuten also nicht die Fähigkeit, R-Skripte zu schreiben. Irgendwo hier kann ich wahrscheinlich fließend Linux hinzufügen. Die Messlatte liegt also einfach höher, als die meisten Statistiker glauben.
  • SQL und Datenbanken . Nein, das kann er bei der Arbeit nicht aufgreifen, da er tatsächlich die ihm bereits bekannten grundlegenden SQL-Anforderungen anpassen und lernen muss, wie die verschiedenen DB-Systeme abzufragen sind, die wir in der gesamten Organisation verwenden, einschließlich Redshift, HIVE und Presto die ihre eigene Variante von SQL verwendet. Darüber hinaus führt das Lernen von SQL im Job dazu, dass der Kandidat bei jedem anderen Analysten Probleme aufwirft, bis er lernt, wie man effiziente Abfragen schreibt.
  • Maschinelles Lernen . In der Regel haben sie die logistische Regression oder einige andere Techniken verwendet, um ein Problem basierend auf einem bestimmten Datensatz (Kaggle-Stil) zu lösen. Auch wenn das Interview von Algorithmen und Methoden ausgeht, konzentriert es sich bald auf Themen wie Feature-Generierung (denken Sie daran, dass Sie den Datensatz erstellen müssen, es gibt niemanden, der ihn für Sie erstellt), Wartbarkeit, Skalierbarkeit und Leistung sowie die damit verbundenen Aspekte Kompromisse. In einigen Fällen können Sie ein relevantes Dokument von Google lesen, das in NIPS 2015 veröffentlicht wurde.
  • Textanalyse . Kein Muss, aber etwas Erfahrung in der Verarbeitung natürlicher Sprache ist gut. Immerhin liegt ein großer Teil der Daten in Textform vor. Wie bereits erwähnt, muss niemand anders die Transformationen vornehmen und den Text für Sie bereinigen, damit er von einer ML oder einem anderen statistischen Ansatz verarbeitet werden kann. Beachten Sie auch, dass heute sogar CS-Absolventen bereits ein Projekt durchgeführt haben, das dieses Kästchen markiert.

Natürlich kann man für eine Junior-Rolle nicht alles haben. Aber wie viele dieser Fähigkeiten können Sie sich leisten, wenn Sie den Job verpassen und übernehmen?

Schließlich ist der häufigste Grund für die Ablehnung von Nicht-Statistikern genau das Fehlen selbst grundlegender Statistikkenntnisse. Und irgendwo gibt es den Unterschied zwischen einem Dateningenieur und einem Datenwissenschaftler. Dateningenieure bewerben sich jedoch in der Regel für diese Rollen, da sie häufig der Ansicht sind, dass "Statistiken" nur der Durchschnitt, die Varianz und die Normalverteilung sind. Deshalb können wir einige relevante, aber beängstigende statistische Schlagworte in die Stellenbeschreibungen aufnehmen, um zu verdeutlichen, was wir unter "Statistik" verstehen, und Verwirrung zu vermeiden.

iliasfl
quelle
4
Seit 2006 unterrichte ich an zwei Universitäten Kurse in angewandter Statistik und Datenanalyse in den Programmen "Wirtschaftsinformatik". Dies gilt zu 100% für das, was meine Studenten lernen. 1. Sie müssen echte, möglicherweise unordentliche Daten aus ihrem Unternehmen, dem Internet, der Umfrage usw. sammeln. 2. Bereinigen, Vorbereiten und Speichern der Daten in einer SQL-Datenbank für den Kurs. 3. Führen Sie verschiedene statistische Analysen der Daten durch. 4. Bereiten Sie 1-2 Seiten kurze Executive Briefs vor und verfassen Sie einen ausführlichen Bericht mit wörtlicher Programmierung (Knitr oder ähnliches). Aus dieser Datenwissenschaft wird Wirtschaftsinformatik mit einem zusätzlichen Statistik / ML-Kurs, nein?
Momo
4
Natürlich deckt Ihr Kurs viele der erforderlichen Fähigkeiten ab. Ich nehme an, wir können viele Kombinationen finden, z. B. einen Abschluss in Informatik mit einigen Statistikkursen und eine Abschlussarbeit / ein Praktikum zu einem ML-basierten Geschäftsproblem. Am Ende des Tages kommt es auf die Tiefe und Breite der relevanten Fähigkeiten an, die der Kandidat auf den Tisch bringt.
iliasfl
11

Gestatten Sie mir, den Hype und die Schlagworte zu ignorieren. Ich denke, "Data Scientist" (oder wie auch immer Sie es nennen wollen) ist eine echte Sache und das unterscheidet sich von einem Statistiker. Es gibt viele Arten von Positionen, bei denen es sich effektiv um Datenwissenschaftler handelt, denen dieser Name jedoch nicht gegeben ist. Ein Beispiel sind Personen, die in der Genomik arbeiten.

Aus meiner Sicht ist ein Datenwissenschaftler jemand, der über die Fähigkeiten und das Fachwissen verfügt, um große Mengen komplexer Daten zu entwerfen und zu untersuchen (z. B. hochdimensionale Daten, bei denen die zugrunde liegenden Mechanismen unbekannt und komplex sind).

Das heisst:

  • Programmierung: In der Lage zu sein, Analysen und Pipelines zu implementieren, erfordert oft ein gewisses Maß an Parallelisierung und Schnittstellen zu Datenbanken und Hochleistungsrechnern.
  • Informatik (Algorithmen): Entwerfen / Auswählen effizienter Algorithmen, sodass die ausgewählte Analyse möglich ist und die Fehlerrate gesteuert wird. Manchmal kann dies auch Kenntnisse der numerischen Analyse, Optimierung usw. erfordern.
  • Informatik / Statistik (in der Regel Schwerpunkt maschinelles Lernen): Entwurf und Implementierung eines Frameworks, um Fragen zu den Daten zu stellen oder "Muster" darin zu finden. Dies würde nicht nur das Wissen über verschiedene Tests / Tools / Algorithmen einschließen, sondern auch das Entwerfen eines angemessenen Holdouts, einer gegenseitigen Validierung und so weiter.
  • Modellierung: Oft möchten wir in der Lage sein, ein Modell zu erstellen, das eine einfachere Darstellung der Daten ermöglicht, sodass wir nützliche Vorhersagen treffen und Einblicke in die den Daten zugrunde liegenden Mechanismen gewinnen können. Dabei sind probabilistische Modelle sehr beliebt.
  • Domänenspezifisches Know-how: Ein wesentlicher Aspekt für die erfolgreiche Arbeit mit komplexen Daten ist die Berücksichtigung domänenspezifischer Erkenntnisse. Ich würde daher sagen, dass es entscheidend ist, dass der Datenwissenschaftler über Fachkenntnisse auf diesem Gebiet verfügt, in der Lage ist, schnell neue Bereiche zu erlernen, oder eine gute Schnittstelle zu Experten auf diesem Gebiet hat, die nützliche Erkenntnisse über den Umgang mit den Daten liefern kann .
Bitweise
quelle
6
Und wer ist Ihrer Meinung nach ein Statistiker? Inwiefern unterscheidet sich diese Liste von Fähigkeiten von den Fähigkeiten, die ein "Statistiker" haben sollte?
Amöbe
4
@amoeba Ich kann mich irren, aber viele Statistiker verfügen nicht über diese Fähigkeiten (z. B. umfangreiche Programmierung mit umfangreichen Datensätzen, Ausbildung auf Hochschulniveau in Informatik). Einige statistische Fähigkeiten sind für einen Datenwissenschaftler häufig irrelevant (einige theoretische Kenntnisse, einige Teilbereiche).
Bitweise
4
@rocinante: Ich stark anderer Meinung , dass „ die Programmierung mit‚massiven Datensätze‘ist nicht wirklich ein Hindernis“. Ich glaube nicht, dass ich jemanden mit dem Titel "Statistiker" kenne, der Software implementieren könnte, die Echtzeitentscheidungen basierend auf eingehenden Paketen auf einem Server trifft. Sicherlich könnten auch nicht alle Datenwissenschaftler, aber der Anteil ist viel höher.
Cliff AB
3
@rocinante ein gutes Verständnis der Statistik ist notwendig, aber aus meiner Sicht nicht ausreichend. In Bezug auf die Tiefe / Schwierigkeit von Statistiken im Vergleich zu anderen Fertigkeiten würde ich argumentieren, dass ein gutes Verständnis der Informatik-Seite ebenso tiefgreifend / schwierig ist, wenn nicht sogar schwieriger. In Bezug auf die Fragen zu dieser SE finden Sie diese Art von Fragen zu jeder SE (einschließlich dieser) - es bedeutet nichts anderes, als dass einige Leute einfache Lösungen ohne Verständnis wünschen.
Bitweise
6
Die eine Sache, die in diesen Debatten "Datenwissenschaft gegen Statistik" anstrengend wird, ist die subtile Implikation, dass Datenwissenschaftler wie eine überlegene Rasse von Statistikern sind. Tatsache ist, dass mit zunehmender Breite Ihres Wissens die Tiefe abnimmt und die Menschen, die bei allen Aufgaben, die erforderlich sind, um ein "Datenwissenschaftler" zu sein, mehr als ahnungslos sind ziemlich oberflächlich. Im Allgemeinen ist es äußerst schwierig, in einem der Bereiche, die die Menschen von diesen mythischen Datenwissenschaftlern erwarten, überhaupt Experte zu sein.
Dsaxton
7

Alle guten Antworten, jedoch habe ich in meiner Berufserfahrung festgestellt, dass der Begriff "Data Scientist" in den Köpfen der Personalvermittler, mit denen ich Kontakt hatte, mit "Junior Data Analyst" verwechselt wurde. Daher bezeichnen sich viele nette Leute ohne statistische Erfahrung, abgesehen von dem Ein-Semester-Einführungskurs, den sie vor ein paar Jahren gemacht haben, selbst als Datenwissenschaftler. Als jemand mit einem Informatikhintergrund und jahrelanger Erfahrung als Datenanalyst habe ich später in meiner Karriere über Statistik promoviert und dachte, es würde mir helfen, mich von der Masse abzuheben. Ich befinde mich in einer unerwartet großen Masse von "Datenwissenschaftlern" ". Ich denke, dass ich zu "Statistiker" zurückkehren könnte!

Sean
quelle
5
Ich sehe im Grunde das Gleiche. Jeder Job, der eine Arbeit mit Daten oder eine Analyse anfordert, wird als "Data Science" bezeichnet. Ich denke, dass "Quant" im Finanzbereich sehr ähnlich war, als sich jeder, der mit Daten arbeitete, "Quant" nannte.
Akavall
6

Ich bin ein junger Angestellter, aber meine Berufsbezeichnung lautet "Data Scientist". Ich denke, die Antwort von Bitwise beschreibt treffend, wofür ich eingestellt wurde, aber ich möchte einen weiteren Punkt hinzufügen, der auf meiner täglichen Erfahrung bei der Arbeit basiert:

Data ScienceStatistics,
StatisticsData Science.

Wissenschaft ist ein Forschungsprozess. Wenn Daten das Mittel sind, mit dem diese Abfrage durchgeführt wird, geschieht Data Science. Das bedeutet nicht, dass jeder, der mit Daten experimentiert oder forscht, notwendigerweise ein Datenwissenschaftler ist, genauso wie nicht jeder, der mit Verkabelung experimentiert oder forscht, notwendigerweise ein Elektrotechniker ist. Dies bedeutet jedoch, dass man eine ausreichende Ausbildung erwerben kann, um ein professioneller "Datenabfrager" zu werden, genauso wie man eine ausreichende Ausbildung erwerben kann, um ein professioneller Elektriker zu werden. Dieses Training besteht mehr oder weniger aus den Punkten in der Antwort von Bitwise, von denen die Statistik eine Komponente, aber nicht die Gesamtheit ist.

Piotrs Antwort ist auch eine schöne Zusammenfassung aller Dinge, die ich tun muss, wenn ich wüsste, wie ich in einer bestimmten Woche vorgehen soll. Bisher habe ich hauptsächlich dazu beigetragen, die Schäden von ehemaligen Mitarbeitern, die zur Komponente "Gefahrenzone" des Venn-Diagramms gehörten, rückgängig zu machen.

Shadowtalker
quelle
2
+1. Ich finde es in diesem Thread sehr wertvoll, von Leuten zu hören, die tatsächlich als "Datenwissenschaftler" beschäftigt sind.
Amöbe
(+1) @amoeba Ich stimme Ihrem Gefühl zu 100% zu.
RustyStatistician
8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science
@caveman da stimme ich definitiv zu.
RustyStatistician
1
StatisticsData ScienceStatisticsData ScienceData Science
3

Ich interessiere mich seit kurzem auch für Data Science als Karriereberater. Als ich überlegte, was ich im Vergleich zu den zahlreichen Statistikkursen, an denen ich teilgenommen habe (und die ich genossen habe!), Über Data Science gelernt hatte, begann ich, an Data Scientists zu denken Informatiker, die sich mit Daten beschäftigten. Insbesondere habe ich die folgenden Hauptunterschiede festgestellt. Beachten Sie jedoch, dass die Unterschiede Stimmung erscheinen. Das Folgende spiegelt nur meine subjektiven Eindrücke wider und ich beanspruche keine Allgemeinheit. Nur meine Eindrücke!

  1. In der Statistik interessieren Sie sich sehr für Verteilungen, Wahrscheinlichkeiten und Inferenzverfahren (wie man Hypothesentests durchführt, die die zugrunde liegenden Verteilungen sind usw.). Soweit ich weiß, geht es in der Datenwissenschaft mehr oder weniger um Vorhersage, und die Sorge um inferentielle Aussagen wird in gewissem Maße von Verfahren aus der Informatik wie der Kreuzvalidierung absorbiert.

  2. In statistischen Kursen habe ich oft nur meine eigenen Daten erstellt oder einige fertige Daten verwendet, die in einem recht sauberen Format verfügbar sind. Das heißt, es hat ein schönes rechteckiges Format, eine Excel-Tabelle oder so etwas, das gut in den Arbeitsspeicher passt. Datenbereinigung ist sicherlich ein Thema, aber ich musste mich nie mit dem "Extrahieren" von Daten aus dem Web befassen, geschweige denn mit Datenbanken, die eingerichtet werden mussten, um eine Datenmenge zu speichern, die nicht mehr in den Arbeitsspeicher passt. Mein Eindruck ist, dass dieser rechnerische Aspekt in der Datenwissenschaft viel dominanter ist.

  3. Vielleicht spiegelt dies meine Unkenntnis darüber wider, was Statistiker in typischen statistischen Berufen tun, aber vor der Datenwissenschaft habe ich nie daran gedacht, Modelle in ein größeres Produkt zu integrieren. Es musste eine Analyse durchgeführt werden, ein statistisches Problem musste gelöst werden, einige Parameter mussten geschätzt werden, und das war's. In der Datenwissenschaft scheinen oft (wenn auch nicht immer) Vorhersagemodelle in ein größeres Etwas eingebaut zu sein. Wenn Sie beispielsweise auf eine beliebige Stelle klicken, hat ein Vorhersagealgorithmus innerhalb von Millisekunden entschieden, was als Ergebnis angezeigt wird. Während ich mich in der Statistik immer gefragt habe, "welche Parameter können wir schätzen und wie machen wir das elegant", scheint es, dass in der Datenwissenschaft der Fokus mehr auf "was können wir vorhersagen, das in einem Datenprodukt möglicherweise nützlich ist" liegt. .

Auch hier wird nicht versucht, eine allgemeine Definition zu geben. Ich weise nur auf die Hauptunterschiede hin, die ich selbst wahrgenommen habe. Ich bin noch nicht in Data Science, hoffe aber, dass ich im nächsten Jahr übergehen kann. In diesem Sinne nimm meine zwei Cent hier mit einem Körnchen Salz.

coffeinjunky
quelle
2

Ich sage, ein Data Scientist ist eine Rolle, bei der man für Unternehmen lesbare Ergebnisse erzielt, indem man die Methoden verwendet, um das Ergebnis statistisch solide (signifikant) zu machen.

Wenn ein Teil dieser Definition nicht befolgt wird, sprechen wir entweder von einem Entwickler, einem echten Wissenschaftler / Statistiker oder einem Dateningenieur.

Alexey Burnakov
quelle
2

Ich gehe immer gerne auf das Wesentliche ein.

statistics - science + some computer stuff + hype = data science
Mark L. Stone
quelle
1
Das klingt wie der Eindruck, den ich von "maschinellem Lernen" gewonnen habe, den ich als "Lernen, wie man eine Software bedient, ohne zu verstehen, wie sie tatsächlich funktioniert" zusammenfasse (unfair natürlich, aber wir sehen viel "maschinelles Lernen" Leute, die aus der Schule kommen und nur verstehen, was die Abstimmungsparameter verschiedener Arten von neuronalen Netzen darstellen.)
jbowman
1

Data Science ist eine multidisziplinäre Mischung aus Dateninferenz, Algorithmenentwicklung und Technologie, um analytisch komplexe Probleme zu lösen. Aufgrund des Mangels an Data Scientists kann eine Karriere in der Datenwissenschaft jedoch zahlreiche Möglichkeiten eröffnen. Unternehmen suchen jedoch zertifizierte Fachkräfte von SAS, dem Data Science Council of America (DASCA), Hortonworks usw. Wir hoffen, dass dies eine gute Information ist!

user169155
quelle
1

Datenwissenschaftler verfügen über sehr gute Kenntnisse in der Python-, MySQL- und Java-Entwicklung.

Sie haben ein sehr klares Verständnis der analytischen Funktionen, sind sehr gut in Mathematik, Statistik, Data Mining und prädiktiven Analysefähigkeiten und sie haben auch sehr gute Kenntnisse der Codierungssprachen wie Python und R.

Viele Datenwissenschaftler haben gerade ihren Doktortitel. oder ihr Master-Abschluss hat laut Forschung nur etwa 8% einfach einen Bachelor-Abschluss, es ist also viel tiefergehend.

Aufbau statistischer Modelle, die Entscheidungen auf der Grundlage von Daten treffen. Jede Entscheidung kann hart sein, z. B. das Rendern einer Seite blockieren, oder weich sein, z. B. eine Punktzahl für die Bösartigkeit einer Seite zuweisen, die von nach unten gerichteten Systemen oder Menschen verwendet wird.

Durchführung von Kausalitätsexperimenten, bei denen versucht wird, die Ursache eines beobachteten Phänomens zu bestimmen. Dies kann durch den Entwurf von A / B-Experimenten geschehen oder wenn es nicht möglich ist, einen epidemiologischen Ansatz auf das Problem anzuwenden, z. B. das @ Rubin-Kausalmodell

Identifizierung neuer Produkte oder Funktionen, die sich aus der Erschließung des Werts von Daten ergeben; ein Vordenker über den Wert von Daten sein. Ein gutes Beispiel dafür sind die Produktempfehlungen, die Amazon erstmals einem breiten Publikum zur Verfügung stellte.

Rameez
quelle
1
Nun, nein. Ich bin so gut wie möglich in der Jobkette der Data Scientists, kenne Java überhaupt nicht und beherrsche Python überhaupt nicht, und meine MySQL-Kenntnisse sind bestenfalls von allgemeiner Qualität. In meiner Gruppe haben wir ein paar andere Leute, die den kleinen Python kennen und R bevorzugen, und nur eine Person kennt Java, aber er codiert hauptsächlich in R und C / C ++ (wie ich.) Drei Leute kennen Python, aber kennen es nicht wirklich Sprache der unteren Ebene. Ich möchte nicht auf Python v. R Flame Wars oder Java v. C / C ++ eingehen, aber es ist keinesfalls erforderlich, dass eine Liste Ihrer programmierbezogenen Fähigkeiten vorhanden ist.
Bogenschütze
0

So beantworten Sie Ihre Frage: "Was ist ein Datenwissenschaftler?" Es kann sich lohnen, den Unterschied zwischen einem Data Scientist und einem Data Mechanic zu kennen, wie in http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/ angegeben.

Deep Mukherjee
quelle
1
Um eine vollständige Antwort zu erhalten, markieren Sie bitte die Hauptpunkte des Artikels in Ihrer Antwort, um dem OP und anderen Lesern wichtige Punkte zu liefern.
Greenparker