Ich bereite mich gerade auf einen Einführungskurs in die Datenwissenschaft mit der Programmiersprache R vor. Mein Publikum besteht aus Studenten mit Schwerpunkt Wirtschaft. Ein typischer Business-Student hat keine Computer-Programmiererfahrung, hat jedoch einige Kurse belegt, die Excel verwenden.
Persönlich fühle ich mich mit R (oder anderen Programmiersprachen) sehr wohl, weil ich einen Abschluss in Informatik habe. Ich habe jedoch das Gefühl, dass viele meiner Schüler das Erlernen einer Programmiersprache fürchten, weil es ihnen schwierig erscheinen mag.
Ich bin mit Excel vertraut und bin der Meinung, dass Excel zwar für einfache Datenwissenschaften nützlich sein kann, die Schüler jedoch eine seriöse Programmiersprache für Datenwissenschaften erlernen müssen (z. B. R oder Python). Wie kann ich mich und die Studenten davon überzeugen, dass Excel für einen ernsthaften Business-Studenten, der Data Science studiert, nicht ausreicht und dass sie etwas Programmieren lernen müssen?
Als Antwort auf einen Kommentar bearbeitet
Hier sind einige der Themen, die ich behandeln werde:
- Datenverarbeitung und Datenbereinigung
- So bearbeiten Sie eine Datentabelle: Wählen Sie z. B. eine Teilmenge von Zeilen aus (Filter), fügen Sie neue Variablen hinzu (Mutieren), sortieren Sie Zeilen nach Spalten
- SQL tritt mit dem Paket dplyr bei
- So zeichnen Sie Diagramme ( Punktdiagramme , Balkendiagramme, Histogramme usw.) mit dem Paket ggplot2
- Wie statistische Modelle wie lineare Regression, logistische Regression, Klassifikationsbäume und k-nächste Nachbarn geschätzt und interpretiert werden
Da ich Excel nicht sehr gut kenne, weiß ich nicht, ob all diese Aufgaben in Excel problemlos ausgeführt werden können.
quelle
Antworten:
Schauen Sie sich zuerst diesen Beitrag an . Es gibt viele Gründe, warum Excel anderen Lösungen in Bezug auf datenwissenschaftliche Aufgaben unterlegen ist. Excel kann auch keine großen Datenmengen (Hunderttausende von Datensätzen - ganz zu schweigen von Big Data ), Bild- und Tondaten verarbeiten.
Excel eignet sich für einfache Aufgaben in Bezug auf Tabellenkalkulationen. Das Hauptaugenmerk liegt auf der Darstellung und Benutzerfreundlichkeit bei minimaler Unterstützung für die eigentliche Analyse der Daten. Wenn Sie nicht nur einfache statistische Kennzahlen (Mittelwert, Durchschnitt usw.) berechnen oder ein sehr einfaches Modell (z. B. lineare Regression) erstellen möchten, ist Excel ineffizient. Davon abgesehen ist die Arbeit eines Unternehmens in Bezug auf Daten zu 99% so einfach, dass sie mit Excel verwaltet werden kann.
Data Science befasst sich jedoch hauptsächlich mit Regression, Klassifizierung und komplexen Modellen, für die Excel nicht gerüstet ist! Wenn Ihre Schüler sich mit Data Science befassen möchten, müssen Sie ihnen ein Werkzeug beibringen, das für sie nützlich ist (R, Python usw.). Diese Sprachen haben auch Bibliotheken mit Tonnen von eingebauten Modellen zum "Spielen".
Ein weiterer sehr wichtiger Grund, warum ich mich für die letztgenannten Optionen entschieden habe, ist, dass sie Open Source sind . Ich persönlich bin der Meinung, dass Open Source-Software aus pädagogischer Sicht proprietären Lösungen vorzuziehen ist (aus diesem Grund empfehle ich auch Python und R gegenüber Matlab)!
quelle
Ich habe gerade einen Master in Business Analytics abgeschlossen und war mit dem gleichen Problem konfrontiert, das Sie beschreiben. Glücklicherweise bin ich eine technische Person und konnte mir R und Python beibringen, aber ich war nicht in der Lage, dem Rest der Klasse den Umgang mit R und Python beizubringen. Die Klassen, die ich mit R / Python hatte, waren durch das mangelnde technische Verständnis der Schüler behindert, und so wurde zu viel Zeit darauf verwendet, nur R / Python zu öffnen. Die Klassen, die den anderen Weg gingen, waren nicht gerade berauschend und wenig praktisch. Ich wollte für ein Klassenprojekt etwas tun, das aufgrund seiner Einschränkungen nicht in Excel ausgeführt werden konnte, aber der Lehrer akzeptierte keine anderen Tools.
Es kann sein, dass Sie dies nicht sofort tun können, aber ich würde Ihnen wärmstens empfehlen, vor dem Besuch Ihres Kurses einen Programmierkurs bei der Abteilung anzufordern. Data Science und Business Analytics IMHO sollten fächerübergreifende Studiengänge sein, die ein gutes Stück Informatik erfordern, aber bis die Programme ausgereift sind und das Universitätssystem besser wird, kann es vorkommen, dass es eine Weile nicht passiert.
quelle
Ich denke, Sie müssen ihnen eine beliebte Data Science-Sprache wie Python oder R beibringen. Excel wird ihnen bei einem echten Job nicht helfen und ist für datenwissenschaftliche Zwecke nicht praktisch. Ich würde wahrscheinlich sagen, dass Python auf lange Sicht für sie am wertvollsten ist, und mit Paketen wie scikit-learn können Ihre Regressionen und Klassifikationen in sehr wenigen Codezeilen demonstriert werden, die sie leichter lesen und verstehen können. Es ist nicht immer leicht zu verstehen, was R tut, wenn man es nur liest.
Noch ein Tipp: Verschwenden Sie keine Zeit damit, Ihre Schüler zum Einrichten einer IDE und Herunterladen der erforderlichen Pakete zu zwingen. Wenn Sie Python verwenden, erstellen Sie für sie eine virtuelle Umgebung mit allen erforderlichen Paketen und richten Sie eine IDE wie pycharm ein Holen Sie sich diese und die meisten anderen IDEs unter eine Studenten- / Hochschullizenz, wo sie ihren Code über die Benutzeroberfläche entwickeln und ausführen können, anstatt über eine Konsole, die sie möglicherweise für entmutigend und verwirrend halten. Wenn Sie sich für R entscheiden, stellen Sie sicher, dass Sie eine IDE wie RStudio für sie eingerichtet haben, und stellen Sie sicher, dass alle Includes und Paketinstallationen entweder in Ihrem Beispielcode enthalten sind oder vollständig beschrieben sind.
quelle
Erstellen Sie in R einen riesigen data.frame (paar Millionen Zeilen und Hunderte von Spalten) und speichern Sie ihn als .xlsx.
Zeigen Sie ihnen den Zeitunterschied beim Laden mit R und in Excel auf demselben Computer an. Vergleichen Sie grundlegende Statistikoperationen zwischen den beiden in demselben Dataset, auch Plots.
Punkt Nr. 2-4 auf Ihrer Liste kann auch in Excel durchgeführt werden, nur VIEL schmerzhafter. Zeigen Sie ihnen ein paar Beispiele dafür, wie einfach (und schneller) das Filtern im
dplyr
Vergleich zu einfachem Excel bei einem riesigen Datensatz ist, den dies hervorheben würde der Unterschied.Bonuspunkt, wenn Sie einen Datensatz erstellen können, der Ihren PC beim Ausführen von Excel zum Absturz bringt.
Außerdem würde ich den "frei verwendbaren" Teil von R (oder Python) betonen. Wenn Sie beispielsweise im Vergleich zu SAS nur eine Lösung ausprobieren möchten (dh eine Art Cluster), laden Sie die Bibliothek und probieren Sie sie aus, ohne dass Sie dafür mehr bezahlen müssen.
Für mich ist das das Schöne daran: Sie können kostenlos ausprobieren, was Sie brauchen, und oft ist dies der Schlüssel zu DS. Stellen Sie sich vor, Sie müssten für jede installierte Bibliothek bezahlen.
quelle
Excel und Data Science - klingt für mich sehr seltsam. Vielleicht Excel und "Datenanalyse".
Ich denke, ein guter Kompromiss zwischen Excel und R ist: KNIME ( http://www.knime.org/knime-analytics-platform ). Es ist kostenlos auf dem Desktop und viel einfacher zu starten. Sie können nach Excel importieren / exportieren, aber auch R, Python oder Java verwenden, wenn auf den ~ 1.000 Knoten einige Funktionen fehlen, die Sie benötigen. Da die Workflows visuell erstellt werden, ist es auch viel einfacher, sie anderen Personen zu zeigen, die keine Programmiersprachen beherrschen - was in einigen Unternehmen von Vorteil ist.
quelle
Ich denke, das Problem ist, dass Sie versuchen, Ihre Schüler davon zu überzeugen, dass sie mit Ihrer Klasse Datenwissenschaften durchführen können, die dem Niveau der modernen Datenwissenschaften ähneln, dh ausgefallene Dinge wie Bildverarbeitung, Gesichtserkennung. Sie hören die meiste Zeit das Sprichwort: "Wenn Sie an diesem Kurs teilnehmen, werden Sie ...". Was Sie ihnen beibringen müssen, ist die Liebe zu Daten und der Mut, eine Reihe von Daten durchzusehen und mit ihnen herumzuspielen, um sie hoffentlich zu machen etwas Sinn aus ihnen. In dem Moment, in dem sie das können, können Sie sie als Datenwissenschaftler bezeichnen, und Sie sollten stolz auf sich sein, jetzt eine neue Generation von Datenwissenschaftlern zu haben. Danach können sie, wenn sie Data Science sehr ernst nehmen, weitere intensive Kurse belegen, die sich mit Mathematik, Statistik und Informatik befassen (Programmiererfahrung, wie Sie sagten). Ich war in einer ähnlichen Situation wie Ihre Schüler. Ich hatte keinen CS-Hintergrund, wollte aber in Data Science und KI einsteigen, indem ich einige Online-Kurse mit ausgefallenen Versprechungen belegte. Ich habe eine Menge Geld verschwendet und war dennoch sehr frustriert (oh, ich muss diese Klasse besuchen, um diesen Algorithmus zu kennen, oh, sie sprechen jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL ;DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen. Oh, sie reden jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL; DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen. Oh, sie reden jetzt über neuronale Netze, also muss ich mich für die andere Klasse anmelden usw.) TL; DR. Tools machen nur 1% des Problems aus, das Sie haben. Mit Ihrem Hintergrund sollten Sie in einer Woche keine Probleme haben, die oben genannten Aufgaben in Excel zu lösen.
quelle