Ist Excel ausreichend für Data Science?

12

Ich bereite mich gerade auf einen Einführungskurs in die Datenwissenschaft mit der Programmiersprache R vor. Mein Publikum besteht aus Studenten mit Schwerpunkt Wirtschaft. Ein typischer Business-Student hat keine Computer-Programmiererfahrung, hat jedoch einige Kurse belegt, die Excel verwenden.

Persönlich fühle ich mich mit R (oder anderen Programmiersprachen) sehr wohl, weil ich einen Abschluss in Informatik habe. Ich habe jedoch das Gefühl, dass viele meiner Schüler das Erlernen einer Programmiersprache fürchten, weil es ihnen schwierig erscheinen mag.

Ich bin mit Excel vertraut und bin der Meinung, dass Excel zwar für einfache Datenwissenschaften nützlich sein kann, die Schüler jedoch eine seriöse Programmiersprache für Datenwissenschaften erlernen müssen (z. B. R oder Python). Wie kann ich mich und die Studenten davon überzeugen, dass Excel für einen ernsthaften Business-Studenten, der Data Science studiert, nicht ausreicht und dass sie etwas Programmieren lernen müssen?

Als Antwort auf einen Kommentar bearbeitet

Hier sind einige der Themen, die ich behandeln werde:

  • Datenverarbeitung und Datenbereinigung
  • So bearbeiten Sie eine Datentabelle: Wählen Sie z. B. eine Teilmenge von Zeilen aus (Filter), fügen Sie neue Variablen hinzu (Mutieren), sortieren Sie Zeilen nach Spalten
  • SQL tritt mit dem Paket dplyr bei
  • So zeichnen Sie Diagramme ( Punktdiagramme , Balkendiagramme, Histogramme usw.) mit dem Paket ggplot2
  • Wie statistische Modelle wie lineare Regression, logistische Regression, Klassifikationsbäume und k-nächste Nachbarn geschätzt und interpretiert werden

Da ich Excel nicht sehr gut kenne, weiß ich nicht, ob all diese Aufgaben in Excel problemlos ausgeführt werden können.

Ich mag es zu kodieren
quelle
Ohne zu wissen, was in Ihrem Lehrplan steht, kann diese Frage nicht beantwortet werden. Vor diesem Hintergrund sollten Sie sich Power Pivot / Data Model in Excel ansehen. Heutzutage können Sie problemlos mit Multi-Gigabyte-Datasets mit Millionen von Zeilen in Excel umgehen, und das ist schnell.
Gaius
@Gaius Ich habe einige Details von dem, was ich im Laufe unterrichten wollen
ich mag -
Ihre Punkte 1 bis 4 werden vom Datenmodell gut unterstützt. Support.office.com/en-us/article/… - für Punkt 5 würde ich die kostenlose Stufe von AzureML studio.azureml.net
Gaius
AzureML funktioniert auch mit R btw
Gaius
4
Zu Ihrem letzten Punkt - werfen Sie einen Blick auf das Buch "Data Smart" von John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Antworten:

10

Schauen Sie sich zuerst diesen Beitrag an . Es gibt viele Gründe, warum Excel anderen Lösungen in Bezug auf datenwissenschaftliche Aufgaben unterlegen ist. Excel kann auch keine großen Datenmengen (Hunderttausende von Datensätzen - ganz zu schweigen von Big Data ), Bild- und Tondaten verarbeiten.

Excel eignet sich für einfache Aufgaben in Bezug auf Tabellenkalkulationen. Das Hauptaugenmerk liegt auf der Darstellung und Benutzerfreundlichkeit bei minimaler Unterstützung für die eigentliche Analyse der Daten. Wenn Sie nicht nur einfache statistische Kennzahlen (Mittelwert, Durchschnitt usw.) berechnen oder ein sehr einfaches Modell (z. B. lineare Regression) erstellen möchten, ist Excel ineffizient. Davon abgesehen ist die Arbeit eines Unternehmens in Bezug auf Daten zu 99% so einfach, dass sie mit Excel verwaltet werden kann.

Data Science befasst sich jedoch hauptsächlich mit Regression, Klassifizierung und komplexen Modellen, für die Excel nicht gerüstet ist! Wenn Ihre Schüler sich mit Data Science befassen möchten, müssen Sie ihnen ein Werkzeug beibringen, das für sie nützlich ist (R, Python usw.). Diese Sprachen haben auch Bibliotheken mit Tonnen von eingebauten Modellen zum "Spielen".

Ein weiterer sehr wichtiger Grund, warum ich mich für die letztgenannten Optionen entschieden habe, ist, dass sie Open Source sind . Ich persönlich bin der Meinung, dass Open Source-Software aus pädagogischer Sicht proprietären Lösungen vorzuziehen ist (aus diesem Grund empfehle ich auch Python und R gegenüber Matlab)!

Djib2011
quelle
Ich stimme all dem zu, aber er hat gesagt, dass es sich um Business Majors handelt. Warum nicht R unterrichten, sondern auch ein R / Excel-Plugin demonstrieren?
CalZ
1
"Excel kann auch keine großen Datenmengen verarbeiten (Hunderttausende von Datensätzen)." <- Ja, das ist problemlos möglich. Und es kann als Client für ernsthafte Back-Ends wie AzureML und PowerBI fungieren. Ich bin kein Excel-Fan "so viel, aber es macht mir Sorgen, vermeintlich" datengetriebene "Leute zu sehen, die nicht einmal grundlegende Tools kennen.
Gaius
1
Was wäre, wenn es sich um einen Datensatz mit einer Million Zeilen und Tausenden von Spalten handelt, der auf demselben "Basis" -Rechner (16 GB RAM, i7 ecc) ausgeführt wird? Welche Lösung würde ihn schneller öffnen? Ich versuche nicht, Excel zu verunglimpfen, nur eine ehrliche Neugier. Soweit ich weiß, kann ich einen solchen Datensatz nicht einmal in Excel öffnen. RStudio liest es problemlos auf demselben PC.
RLave
7

Ich habe gerade einen Master in Business Analytics abgeschlossen und war mit dem gleichen Problem konfrontiert, das Sie beschreiben. Glücklicherweise bin ich eine technische Person und konnte mir R und Python beibringen, aber ich war nicht in der Lage, dem Rest der Klasse den Umgang mit R und Python beizubringen. Die Klassen, die ich mit R / Python hatte, waren durch das mangelnde technische Verständnis der Schüler behindert, und so wurde zu viel Zeit darauf verwendet, nur R / Python zu öffnen. Die Klassen, die den anderen Weg gingen, waren nicht gerade berauschend und wenig praktisch. Ich wollte für ein Klassenprojekt etwas tun, das aufgrund seiner Einschränkungen nicht in Excel ausgeführt werden konnte, aber der Lehrer akzeptierte keine anderen Tools.

Es kann sein, dass Sie dies nicht sofort tun können, aber ich würde Ihnen wärmstens empfehlen, vor dem Besuch Ihres Kurses einen Programmierkurs bei der Abteilung anzufordern. Data Science und Business Analytics IMHO sollten fächerübergreifende Studiengänge sein, die ein gutes Stück Informatik erfordern, aber bis die Programme ausgereift sind und das Universitätssystem besser wird, kann es vorkommen, dass es eine Weile nicht passiert.

Matt Camp
quelle
Sie haben erwähnt, dass Sie "für ein Klassenprojekt etwas tun wollten, das aufgrund seiner Einschränkungen nicht in Excel ausgeführt werden konnte." Was haben Sie versucht, was in Excel nicht möglich war?
Ich mag es zu kodieren
3

Ich denke, Sie müssen ihnen eine beliebte Data Science-Sprache wie Python oder R beibringen. Excel wird ihnen bei einem echten Job nicht helfen und ist für datenwissenschaftliche Zwecke nicht praktisch. Ich würde wahrscheinlich sagen, dass Python auf lange Sicht für sie am wertvollsten ist, und mit Paketen wie scikit-learn können Ihre Regressionen und Klassifikationen in sehr wenigen Codezeilen demonstriert werden, die sie leichter lesen und verstehen können. Es ist nicht immer leicht zu verstehen, was R tut, wenn man es nur liest.

Noch ein Tipp: Verschwenden Sie keine Zeit damit, Ihre Schüler zum Einrichten einer IDE und Herunterladen der erforderlichen Pakete zu zwingen. Wenn Sie Python verwenden, erstellen Sie für sie eine virtuelle Umgebung mit allen erforderlichen Paketen und richten Sie eine IDE wie pycharm ein Holen Sie sich diese und die meisten anderen IDEs unter eine Studenten- / Hochschullizenz, wo sie ihren Code über die Benutzeroberfläche entwickeln und ausführen können, anstatt über eine Konsole, die sie möglicherweise für entmutigend und verwirrend halten. Wenn Sie sich für R entscheiden, stellen Sie sicher, dass Sie eine IDE wie RStudio für sie eingerichtet haben, und stellen Sie sicher, dass alle Includes und Paketinstallationen entweder in Ihrem Beispielcode enthalten sind oder vollständig beschrieben sind.

Dan Carter
quelle
"Excel wird ihnen bei einem echten Job nicht helfen", ist es sicher, wenn all ihre Kollegen das tun. In welchen realen Jobs wird Excel Ihrer Erfahrung nach nicht verwendet?
Gaius
3
Jede Data Science-Rolle, die mit großen Datenmengen arbeitet, einschließlich meiner. Welche DS-Jobs würden Ihrer Meinung nach aus Interesse Excel als primäres Tool verwenden?
Dan Carter
Ich sehe aus Ihrem Profil, dass Sie ein Student sind? Oh. Dies sind Business-Studenten, die einen Kurs in DS belegen. In ihren Geschäftsberufen werden sie auf jeden Fall Excel als primäres Werkzeug verwenden.
Gaius
1
Sicher, Sie haben Recht, sie werden wahrscheinlich Excel in einer geschäftlichen Rolle verwenden, aber wie OP klar ausdrückt: Sie haben bereits Kurse besucht, die Excel abdecken. Zusammen mit der Tatsache, dass Excel nicht für die Industrie oder akademische Data Science geeignet ist und es klar ist, dass das Unterrichten von Excel für Data Science ihnen bei einem echten Job nicht helfen wird, wie ich bereits sagte. Sie können einem Mann (oder einer Frau) nicht das Fischen beibringen, indem Sie ihnen beibringen, Französisch zu sprechen.
Dan Carter
Was ist, wenn sie bereits Kurse in Excel besucht haben? Behandle sie nicht wie Trottel, die nicht in der Lage sind, R zu lernen. Wir sprechen hier nicht von Haskell oder LISP!
Emre
2

Wie kann ich mich und die Studenten davon überzeugen, dass Excel für einen ernsthaften Business-Studenten, der Data Science studiert, nicht ausreicht?

Erstellen Sie in R einen riesigen data.frame (paar Millionen Zeilen und Hunderte von Spalten) und speichern Sie ihn als .xlsx.

Zeigen Sie ihnen den Zeitunterschied beim Laden mit R und in Excel auf demselben Computer an. Vergleichen Sie grundlegende Statistikoperationen zwischen den beiden in demselben Dataset, auch Plots.

Punkt Nr. 2-4 auf Ihrer Liste kann auch in Excel durchgeführt werden, nur VIEL schmerzhafter. Zeigen Sie ihnen ein paar Beispiele dafür, wie einfach (und schneller) das Filtern im dplyrVergleich zu einfachem Excel bei einem riesigen Datensatz ist, den dies hervorheben würde der Unterschied.

Bonuspunkt, wenn Sie einen Datensatz erstellen können, der Ihren PC beim Ausführen von Excel zum Absturz bringt.

Außerdem würde ich den "frei verwendbaren" Teil von R (oder Python) betonen. Wenn Sie beispielsweise im Vergleich zu SAS nur eine Lösung ausprobieren möchten (dh eine Art Cluster), laden Sie die Bibliothek und probieren Sie sie aus, ohne dass Sie dafür mehr bezahlen müssen.

Für mich ist das das Schöne daran: Sie können kostenlos ausprobieren, was Sie brauchen, und oft ist dies der Schlüssel zu DS. Stellen Sie sich vor, Sie müssten für jede installierte Bibliothek bezahlen.

RLave
quelle
1

Excel und Data Science - klingt für mich sehr seltsam. Vielleicht Excel und "Datenanalyse".

Ich denke, ein guter Kompromiss zwischen Excel und R ist: KNIME ( http://www.knime.org/knime-analytics-platform ). Es ist kostenlos auf dem Desktop und viel einfacher zu starten. Sie können nach Excel importieren / exportieren, aber auch R, Python oder Java verwenden, wenn auf den ~ 1.000 Knoten einige Funktionen fehlen, die Sie benötigen. Da die Workflows visuell erstellt werden, ist es auch viel einfacher, sie anderen Personen zu zeigen, die keine Programmiersprachen beherrschen - was in einigen Unternehmen von Vorteil ist.

Tobi
quelle
0

Ich denke, das Problem ist, dass Sie versuchen, Ihre Schüler davon zu überzeugen, dass sie mit Ihrer Klasse Datenwissenschaften durchführen können, die dem Niveau der modernen Datenwissenschaften ähneln, dh ausgefallene Dinge wie Bildverarbeitung, Gesichtserkennung. Sie hören die meiste Zeit das Sprichwort: "Wenn Sie an diesem Kurs teilnehmen, werden Sie ...". Was Sie ihnen beibringen müssen, ist die Liebe zu Daten und der Mut, eine Reihe von Daten durchzusehen und mit ihnen herumzuspielen, um sie hoffentlich zu machen etwas Sinn aus ihnen. In dem Moment, in dem sie das können, können Sie sie als Datenwissenschaftler bezeichnen, und Sie sollten stolz auf sich sein, jetzt eine neue Generation von Datenwissenschaftlern zu haben. Danach können sie, wenn sie Data Science sehr ernst nehmen, weitere intensive Kurse belegen, die sich mit Mathematik, Statistik und Informatik befassen (Programmiererfahrung, wie Sie sagten). Ich war in einer ähnlichen Situation wie Ihre Schüler. Ich hatte keinen CS-Hintergrund, wollte aber in Data Science und KI einsteigen, indem ich einige Online-Kurse mit ausgefallenen Versprechungen belegte. Ich habe eine Menge Geld verschwendet und war dennoch sehr frustriert (oh, ich muss diese Klasse besuchen, um diesen Algorithmus zu kennen, oh, sie sprechen jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL ;DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen. Oh, sie reden jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL; DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen. Oh, sie reden jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL; DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen.

Huy Truong
quelle