Ich würde mich als Gesellen-Datenwissenschaftler bezeichnen. Wie die meisten (glaube ich) habe ich meine ersten Diagramme erstellt und meine ersten Aggregationen in der Schule und am College mit Excel durchgeführt. Als ich das College, die Graduiertenschule und ~ 7 Jahre Berufserfahrung hinter mir hatte, lernte ich schnell etwas, was ich für fortgeschrittene Tools halte, wie SQL, R, Python, Hadoop, LaTeX usw.
Wir interviewen für eine Position als Datenwissenschaftler und ein Kandidat wirbt als "Senior Data Scientist" (heutzutage ein sehr lebhafter Begriff) mit mehr als 15 Jahren Erfahrung. Auf die Frage, was sein bevorzugtes Toolset sei, antwortete er, dass es sich um Excel handele.
Ich nahm dies als Beweis dafür, dass er nicht so erfahren war, wie es sein Lebenslauf behauptete, war mir aber nicht sicher. Nur weil es nicht mein bevorzugtes Werkzeug ist, heißt das nicht, dass es nicht dem anderer gehört. Verwenden erfahrene Datenwissenschaftler Excel? Können Sie einen Mangel an Erfahrung von jemandem vermuten, der hauptsächlich Excel verwendet?
\LaTeX{}
würde ich sie nicht einstellen. nur ein Scherz ...Antworten:
Die meisten Nicht-Techniker verwenden Excel häufig als Datenbankersatz. Ich denke das ist falsch aber erträglich. Allerdings kann jemand, der angeblich Erfahrung in der Datenanalyse hat, Excel einfach nicht als Hauptwerkzeug verwenden (mit Ausnahme der offensichtlichen Aufgabe, die Daten zum ersten Mal zu betrachten). Das liegt daran, dass Excel nie für diese Art von Analyse gedacht war und es infolgedessen unglaublich einfach ist, Fehler in Excel zu machen (das heißt nicht, dass es nicht unglaublich einfach ist, andere Arten von Fehlern zu machen, wenn Sie andere Tools verwenden, sondern Excel verschärft die Situation noch mehr.)
Um zusammenzufassen, was Excel nicht hat und ein Muss für jede Analyse ist:
Mehr Ressourcen:
Europäische Zinsgruppe für Spreadsheet-Risiken - Horrorgeschichten
Sie sollten keine Tabellenkalkulation für wichtige Arbeiten verwenden (ich meine es ernst)
Microsoft Excel könnte die gefährlichste Software auf dem Planeten sein
Zerstören Sie Ihre Daten mit Excel mit diesem einen seltsamen Trick!
Excel-Tabellen sind schwer zu finden
quelle
df.plot()
) und Ihre Ausgabe nach csv (df.to_csv('output.csv')
) exportieren . Beachten Sie, dass Datenanalysen in der Regel viel mehr erfordern als nur Filtern und Zeichnen. Daher sollte der Fokus auf der Korrektheit liegen, sodass Sie die Präsentation von der Analyse entkoppeln müssen. Führen Sie Ihre Analyse in Python (oder einer anderen Sprache) durch und geben Sie Ihre Ausgabe in csv frei, wenn Sie dies wünschen.Ich habe einige erfahrene Datenwissenschaftler kennengelernt, die Excel verwenden - entweder aufgrund ihrer Präferenz oder aufgrund der Besonderheiten der Geschäfts- und IT-Umgebung ihres Arbeitsplatzes (zum Beispiel verwenden viele Finanzinstitute Excel zumindest als Hauptwerkzeug für die Modellierung). Ich denke jedoch, dass die meisten erfahrenen Datenwissenschaftler die Notwendigkeit erkennen, Tools zu verwenden, die für bestimmte Aufgaben optimal sind, und diesen Ansatz einhalten.
Nein, du kannst nicht. Dies ist die Konsequenz meiner oben erwähnten Überlegungen. Data Science impliziert nicht automatisch Big Data - es gibt viele datenwissenschaftliche Arbeiten, mit denen Excel recht gut umgehen kann. Allerdings ist es etwas beunruhigend, wenn ein Datenwissenschaftler (selbst ein erfahrener) keine (zumindest grundlegenden) Kenntnisse über moderne datenwissenschaftliche Tools hat, einschließlich solcher, die sich auf große Datenmengen konzentrieren. Dies liegt daran, dass das Experimentieren tief in der Natur der Datenwissenschaft verankert ist, da die explorative Datenanalyse ein wesentlicher und sogar ein entscheidender Teil davon ist. Daher könnte eine Person, die nicht den Drang hat, andere Tools in ihrem Bereich zu erforschen, unter den Kandidaten in der Gesamt-Fit-Position für eine Data-Science-Position niedriger rangieren (dies ist natürlich ziemlich verschwommen, da einige Leute sehr schnell lernen neues Material, plus,
Zusammenfassend denke ich, dass die beste Antwort, die ein erfahrener Datenwissenschaftler auf eine Frage zu seinem bevorzugten Tool haben könnte, die folgende ist: Mein bevorzugtes Tool ist das optimale, dh dasjenige, das am besten zu der vorliegenden Aufgabe passt.
quelle
Ich denke, die meisten Leute antworten, ohne gute Excel-Kenntnisse zu haben. Excel (seit 2010) verfügt über eine speicherinterne [Mehrtabellen] -Datenbank namens Power Pivot (die die Eingabe von CSV / Datenbanken usw. ermöglicht), mit der Millionen von Zeilen gespeichert werden können (es muss nicht in eine Tabelle geladen werden). . Es hat auch ein ETL-Tool namens Power-Abfrage, mit dem Sie die Daten aus einer Vielzahl von Quellen (einschließlich Hadoop) lesen können. Und es hat ein Visualisierungstool (Power View & Power Map). Eine Menge von Data Science führt Aggregations- und Top-n-Analysen durch, bei denen sich Power Pivot auszeichnet. Hinzu kommt der interaktive Charakter dieser Tools - jeder Benutzer kann einfach eine Dimension ziehen und ablegen, um die Ergebnisse aufzuteilen, und ich hoffe, Sie können die Vorteile erkennen. Also ja, Sie können nicht maschinelles Lernen tun,
quelle
In seinem Buch Data Smart löst John Foreman gängige datenwissenschaftliche Probleme (Clustering, naive Bayes, Ensemble-Methoden, ...) mithilfe von Excel. In der Tat ist es immer gut, etwas über Python oder R zu wissen, aber Excel kann den größten Teil der Arbeit noch erledigen!
quelle
Ich bin überrascht, wie viele Menschen eher an der Coolness des Berufs als an der eigentlichen zu erledigenden Arbeit interessiert sind. Excel ist ein hervorragendes Tool, mit kostenlosem Powerpivot und Powerquery kann es so viel. (Diese sind unter OS X nicht verfügbar.) Und wenn Sie VBA kennen, können Sie einige nette Sachen machen. Wenn Sie zusätzlich zu Ihrem Wissen über Python noch weitere Kenntnisse hinzufügen, können Sie die ersten Schritte der Datenextraktion und -bearbeitung mit Python kombinieren und dann Excel verwenden, insbesondere wenn Sie eine visuelle Person sind. Mit Excel können Sie aggregierte Daten wirklich überprüfen, bevor Sie sie in weitere Prozesse einspeisen oder visualisieren. Es ist ein Muss Werkzeug.
quelle
Excel lässt nur sehr kleine Daten zu und verfügt über nichts, was für maschinelles Lernen oder auch nur für das Plotten ausreichend nützlich und flexibel ist. Alles, was ich in Excel tun würde, ist, auf eine Teilmenge der Daten zu starren, um einen ersten Blick auf die Werte zu werfen und sicherzustellen, dass ich nichts verpasse, was mit dem Auge sichtbar ist.
Wenn sein Lieblingswerkzeug also Excel ist, könnte dies darauf hindeuten, dass er sich selten mit maschinellem Lernen, Statistiken, größeren Datenmengen oder fortgeschrittenem Plotten befasst. Jemand wie diesen würde ich keinen Data Scientist nennen. Natürlich spielen Titel keine Rolle und es hängt sehr von Ihren Anforderungen ab.
Machen Sie auf keinen Fall ein Urteil anhand von Erfahrungsberichten oder Lebensläufen. Ich habe Lebensläufe gesehen und die Menschen dahinter gekannt.
Geh nicht davon aus Teste ihn! Sie sollten gut genug sein, um einen Test einzurichten. Es hat sich gezeigt, dass Interviews allein für die Feststellung von Fähigkeiten nahezu nutzlos sind (sie zeigen nur Persönlichkeit). Richten Sie einen sehr einfachen beaufsichtigten Lerntest ein und lassen Sie ihn jedes gewünschte Werkzeug verwenden.
Und wenn Sie zuerst Leute in einem Interview untersuchen möchten, fragen Sie ihn nach sehr grundlegenden, aber wichtigen Erkenntnissen über Statistik oder maschinelles Lernen. Das weiß jeder Ihrer derzeitigen Mitarbeiter.
quelle
Lassen Sie mich zunächst klarstellen, dass ich meine Reise in die Datenwissenschaft vom Standpunkt eines Programmierers und Datenbankentwicklers aus beginne. Ich bin weder ein 10-jähriger Experte für Datenwissenschaften noch ein statistischer Gott. Ich arbeite jedoch als Data Scientist und mit großen Datenmengen für ein Unternehmen, das mit relativ großen Kunden weltweit zusammenarbeitet.
Nach meiner Erfahrung verwenden Data Scientist alle Tools, die sie zur Erledigung ihrer Aufgaben benötigen. Excel, R, SAS, Python und mehr sind alles Werkzeuge in einer Toolbox für gute Datenwissenschaftler. Die Besten können eine Vielzahl von Tools verwenden, um Daten zu analysieren und zu analysieren.
Wenn Sie also feststellen, dass Sie R mit Python vergleichen, machen Sie wahrscheinlich alles falsch in der Welt der Datenwissenschaft. Gute Datenwissenschaftler verwenden beides, wenn es sinnvoll ist, eines übereinander zu verwenden. Dies gilt auch für Excel.
Ich denke, dass es ziemlich schwierig ist, jemanden zu finden, der Erfahrung in so vielen verschiedenen Werkzeugen und Sprachen hat, während er in allem großartig war. Ich denke auch, dass es schwierig sein wird, einen Datenwissenschaftler zu finden, der nicht nur komplexe Algorithmen programmieren kann, sondern auch weiß, wie man sie vom statistischen Standpunkt aus verwendet.
Die meisten Datenwissenschaftler, mit denen ich zusammengearbeitet habe, haben ungefähr zwei Geschmacksrichtungen. Diejenigen, die programmieren können und die, die nicht können. Ich arbeite selten mit Datenwissenschaftlern zusammen, die Daten in Python abrufen, sie mit Pandas bearbeiten, ein Modell an die Daten in R anpassen und sie dann Ende der Woche dem Management vorlegen können.
Ich meine, ich weiß, dass sie existieren. Ich habe viele Data Science-Blogs von Leuten gelesen, die Web-Scrapper entwickelt, in Hadoop gepusht, in Python wiederhergestellt, komplexe Dinge programmiert und zum Booten in R ausgeführt haben. Sie existieren. Sie sind da draußen. Ich habe einfach nicht zu viele getroffen, die all das können. Vielleicht ist es aber nur meine Gegend?
Heißt das also, sich nur auf eine Sache zu spezialisieren, die schlecht ist? Viele meiner Freunde sind auf nur eine Hauptsprache spezialisiert und töten sie. Ich kenne viele Daten-Leute, die nur R kennen und es töten. Ich kenne auch viele Leute, die Excel nur zum Analysieren von Daten verwenden, da dies das einzige ist, was ein Nicht-Datenwissenschaftler öffnen und verwenden kann (insbesondere in B2B-Unternehmen). Die Frage, die Sie wirklich beantworten müssen, ist, ob dies die EINE ist, die Sie für diese Position benötigen. Und vor allem, können sie neue Dinge lernen?
PS
Data Science beschränkt sich nicht nur auf "BIG DATA" oder NoSQL.
quelle
Excel kann ein hervorragendes Tool für die explorative Datenanalyse sein. Es hängt wirklich von Ihren Bedürfnissen ab und hat natürlich seine Grenzen wie jedes andere Tool, aber Excel verdient definitiv einen Platz in der Ruhmeshalle der Data Sciences.
Es sei daran erinnert, dass die meisten Benutzer in der Praxis ohnehin einen stark reduzierten Datensatz untersuchen (der aus einer SQL-Abfrage erstellt wurde).
Excel ist leistungsstark zum Durchsuchen von Daten, wenn Sie das "table" -Objekt in Kombination mit Pivot-Tabellen verwenden. Die Visualisierung ist mit maximal 1-2 Klicks möglich, und viele Excel-Diagramme in Powerpoint sehen großartig aus, es sei denn, Sie möchten etwas sehr Maßgeschneidertes erstellen, z wissenschaftlicher Computerkontext. Die interaktive Natur bedeutet, dass Sie schnell erkunden können.
Der Vorteil des "table" -Objekts besteht darin, dass sich alle Pivot-Tabellen bei der weiteren Transformation der Daten in Excel an die Variable erinnern, damit Sie neue Verteilungen untersuchen können.
Wo Excel schwach ist, ist, dass die Formelliste möglicherweise einschränkend ist, zum Beispiel ist eine SQL-case-Anweisung oder eine Python-Anweisung viel flexibler als eine endlose Kette von if-Funktionen.
Es hängt wirklich von Ihren Bedürfnissen ab, aber Excel verdient definitiv einen Platz in der Data Science Hall of Fame.
Es ist eine interessante Anekdote, dass das Team, das am Facebook-Newsfeed-Algorithmus arbeitet, regelmäßig mit Excel und vielen Tabellen spielt.
quelle
Ich unterrichte einen Business Analytics-Kurs mit SQL und Excel. Ich unterrichte an einer Business School, damit meine Schüler nicht die technisch besten sind, weshalb ich so etwas wie R, Pandas oder Weka nicht verwendet habe. Abgesehen davon ist Excel ein leistungsfähiges Tool, das für einige Datenanalysen verwendet werden kann. Der größte Teil dieser Leistung wird durch die Möglichkeit erzielt, mithilfe des Data Mining-Add-Ins als Front-End für SQL Server Analysis Services (eine Komponente in SQL Server für die Datenanalyse) zu fungieren.
Mit SSAS können Sie Entscheidungsbäume erstellen, lineare und logistische Regressionen durchführen und sogar Bayes-Netze oder neuronale Netze erstellen. Ich habe festgestellt, dass die Verwendung von Excel als Front-End einen weniger bedrohlichen Ansatz für diese Art von Analysen darstellt, da alle zuvor Excel verwendet haben. Die Verwendung von SSAS ohne Excel erfolgt über eine spezielle Version von Visual Studio, und dies ist nicht das benutzerfreundlichste Tool auf dem Markt. Wenn Sie es mit einigen anderen Excel-Tools wie Power Query und Power Pivot kombinieren, können Sie eine ziemlich komplexe Datenanalyse durchführen.
Vollständige Offenlegung, ich werde es wahrscheinlich nicht mehr verwenden, wenn ich im nächsten Jahr die neue Version des Kurses unterrichte (wir teilen es in zwei Kurse auf, damit man sich stärker auf die Datenanalyse konzentrieren kann). Das liegt aber nur daran, dass die Universität in der Lage war, genügend Lizenzen für Alteryx zu erhalten, das noch einfacher zu verwenden und leistungsfähiger ist, aber 4 bis 85.000 USD / Benutzer / Jahr kostet, wenn Sie es nicht kostenlos bekommen können. Sagen Sie, was Sie über Excel wollen, aber es übertrifft diesen Preis.
quelle
Excel kann ein hervorragendes Werkzeug sein. Sicher, je nachdem, was Sie tun, passt es vielleicht nicht zur Rechnung, aber wenn es so ist, wäre es fast dumm, es abzulehnen. Während es eine Weile dauert, Ihre Pipeline einzurichten, können Sie in Excel ziemlich schnell loslegen: Eingebaute Benutzeroberfläche, einfache Erweiterbarkeit über VBA, auch mit Python (z . B. https://www.xlwings.org ). Es ist vielleicht nicht ideal, wenn es um Versionskontrolle geht, aber es gibt Möglichkeiten, wie es mit Git funktioniert (z . B. https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
quelle
Diese Person arbeitet mit 'Big Data' und verwendet in erster Linie Excel? Ernst?!?! Excel verarbeitet nur bis zu 1, 048, 576 Datenzeilen in einer einzelnen Tabelle. Für darüber hinausgehende Datensätze wird ein Plugin benötigt. Auch Pivot-Tabellen in Excel unterliegen strengen Einschränkungen hinsichtlich der Analyse, die mit ihnen durchgeführt werden kann.
Welche Arten von Datenanalyse-Aufgaben müssten in dem Job ausgeführt werden, für den Sie einstellen?
Ich schlage vor, dass Sie Interviews durchführen, die Tests der Art von Aufgaben enthalten, die in dem betreffenden Job erledigt werden müssen. Ohne die Vertraulichkeit, die Privatsphäre oder den Datenschutz zu verletzen, sollte die im Rahmen des Interviews festgelegte Programmier- oder Datenanalyse-Aufgabe eine (pseudonymisierte) Teilmenge eines Datensatzes enthalten, der für die zu interviewende Stelle relevant ist. Andernfalls werden Sie möglicherweise jemanden einstellen, der in einem gesprächsbasierten Interview artikuliert ist, der aber nicht wirklich in der Ausführung des eigentlichen Auftrags kompetent ist.
quelle