Es scheint, dass Data Mining und maschinelles Lernen so populär wurden, dass mittlerweile fast jeder CS-Student über Klassifikatoren, Clustering, statistische NLPs usw. Bescheid weiß.
Meine Frage lautet: Welche Fähigkeiten könnte ein Data Miner erlernen, die ihn von den anderen unterscheiden? Ihn zu einer Person zu machen, die nicht so leicht zu finden ist wie er.
machine-learning
data-mining
Jack Twain
quelle
quelle
Antworten:
Ich habe mehrmals gesehen, dass Entwickler ML-Techniken verwenden. Dies ist das übliche Muster:
Die einfache Antwort ist, dass (die meisten) Software-Ingenieure in Statistik und Mathematik sehr schwach sind . Dies ist der Vorteil eines jeden, der mit ihnen konkurrieren möchte. Natürlich sind die Leute außerhalb ihrer Komfortzone, wenn sie Produktionscode schreiben müssen. Die Art von Rolle, die wirklich selten wird, ist die von Data Scientist. Es ist jemand, der Code schreiben kann, um auf die enorme Datenmenge zuzugreifen, damit zu spielen und den Wert in ihnen zu finden.
quelle
Worum geht es?
Das Wissen über Techniken ist mit dem Kennen der Tiere in einem Zoo vergleichbar - Sie können sie benennen, ihre Eigenschaften beschreiben und sie möglicherweise in freier Wildbahn identifizieren.
Zu verstehen, wann sie zu verwenden sind, mathematische Modelle innerhalb eines Anwendungsbereichs zu formulieren, zu erstellen, zu testen und zu implementieren, während die Fallstricke vermieden werden - dies sind meiner Meinung nach die Fähigkeiten, die sich auszeichnen.
Der Schwerpunkt sollte auf der Wissenschaft liegen und einen systematischen wissenschaftlichen Ansatz für geschäftliche, industrielle und kommerzielle Probleme verfolgen. Dies erfordert jedoch Fähigkeiten, die umfassender sind als Data Mining und maschinelles Lernen, wie Robin Bloor in "A Data Science Rant" überzeugend argumentiert .
Was kann man also tun?
Anwendungsbereiche : Informieren Sie sich über verschiedene Anwendungsbereiche, die Ihrem Interesse oder dem Ihres Arbeitgebers entsprechen. Der Bereich ist oft weniger wichtig, als zu verstehen, wie das Modell erstellt wurde und wie es verwendet wurde, um diesem Bereich einen Mehrwert zu verleihen. Modelle, die in einem Bereich erfolgreich sind, können häufig transplantiert und auf verschiedene Bereiche angewendet werden, die auf ähnliche Weise funktionieren.
Wettbewerbe : Probieren Sie die Website des Data Mining-Wettbewerbs Kaggle aus und schließen Sie sich vorzugsweise einem Team von anderen an. (Kaggle: Plattform für Vorhersagemodellierungswettbewerbe. Unternehmen, Regierungen und Forscher präsentieren Datensätze und Probleme, und die weltbesten Datenwissenschaftler konkurrieren um die besten Lösungen.)
Grundlagen : Es gibt vier: (1) solide Grundlagen in der Statistik, (2) einigermaßen gute Programmierkenntnisse, (3) Verständnis für die Strukturierung komplexer Datenabfragen, (4) Erstellen von Datenmodellen. Wenn jemand schwach ist, ist dies ein wichtiger Ausgangspunkt.
Ein paar Zitate dazu:
Merken Sie sich:
Und schlussendlich:
Die meisten realen, angewandten Probleme sind nicht nur über die Karte zugänglich. Um mit der mathematischen Modellierung praktische Dinge zu tun, muss man bereit sein, sich mit Details, Feinheiten und Ausnahmen abzufinden. Nichts kann es ersetzen, das Gebiet aus erster Hand zu kennen.
quelle
Ich stimme mit allem überein, was gesagt wurde. Was mich auszeichnet sind:
quelle
Hier sind ein paar Dinge, die Sie von der Masse abheben sollen:
Die Gesamtbotschaft, die für alle drei Punkte gilt: Schauen Sie sich das große Ganze an, verlieren Sie sich nicht im Detail.
quelle
Die Fähigkeit, die einen Data Miner von anderen unterscheidet, ist die Fähigkeit, Modelle für maschinelles Lernen zu interpretieren. Die meisten bauen eine Maschine, melden den Fehler und stoppen dann. Welche mathematischen Beziehungen bestehen zwischen den Merkmalen? Sind die Effekte additiv oder nicht additiv oder beides? Sind einige der Funktionen irrelevant? Wird die Maschine unter der Nullhypothese erwartet, dass die Daten nur Zufallsmuster enthalten? Verallgemeinert sich das Modell auf unabhängige Daten? Was bedeuten diese Muster für das untersuchte Problem? Was sind die Schlussfolgerungen? Was sind die Einsichten? Warum sollte ein Domain-Experte aufgeregt sein? Wird die Maschine dazu führen, dass der Domain-Experte neue Fragen stellt und neue Experimente erstellt? Kann der Data Miner das Modell und seine Auswirkungen effektiv an die Welt kommunizieren?
quelle
Ich würde dort den Begriff "soft skills" ausdrücken.
Erkennen, wer der "Experte" für Methode X ist, und in der Lage sein, sein Wissen zu nutzen (Sie sollten nicht in der Lage oder erwartet sein, alles über alles zu wissen). Die Fähigkeit und Bereitschaft, mit anderen zusammenzuarbeiten.
die Fähigkeit, "die reale Welt" mit der in ML verwendeten Mathematik zu übersetzen oder darzustellen.
Die Möglichkeit, Ihre Methoden verschiedenen Zielgruppen auf unterschiedliche Weise zu erläutern - mit dem Wissen, wann Sie sich auf Details konzentrieren und wann Sie einen Schritt zurücktreten und den weiteren Kontext betrachten müssen.
Systemdenken, in der Lage sein zu sehen, wie sich Ihre Rolle auf andere Geschäftsbereiche auswirkt und wie sich diese Bereiche auf Ihre Arbeit auswirken.
Wertschätzung und Verständnis für Unsicherheit und strukturierte Methoden, um damit umzugehen. In der Lage zu sein, klar zu sagen, was Ihre Annahmen sind.
quelle
Gut verallgemeinern können
Dies ist die Essenz eines guten Modells. Und es ist die Essenz dessen, was die besten Praktiker der Kunst des maschinellen Lernens von der Masse abhebt.
Verstehen, dass das Ziel darin besteht, die Leistung für unsichtbare Daten zu optimieren und den Trainingsverlust nicht zu minimieren. Wissen, wie man sowohl Über- als auch Unteranpassung vermeidet. Überlegen Sie sich Modelle, die nicht zu komplex und dennoch nicht zu einfach sind, um das Problem zu beschreiben. Extrahieren des Kerns eines Trainingssatzes statt des maximal möglichen.
Es ist überraschend, wie oft selbst erfahrene Praktiker des maschinellen Lernens diesen Grundsatz nicht befolgen. Ein Grund dafür ist, dass der Mensch zwei gewaltige Größenunterschiede zwischen Theorie und Praxis nicht einschätzen kann :
Das 2. ist besonders unverständlich, da es selbst für das einfachste Problem mit Eingaben und einem binären Ergebnis mögliche Eingabebeispiele und eine exponentiell größere Anzahl von 2 ^ möglichen Modellen gibt.2 N 2 NN 2N 2N
Es ist auch das, was die meisten der obigen Antworten auf spezifischere und konkretere Weise sagten. gut zu verallgemeinern ist nur der kürzeste Weg, den ich mir vorstellen kann, um es auszudrücken.
quelle
Ich sehe, dass es beim Umgang mit maschinellem Lernen in der Praxis zwei Teile gibt
Engineering (das alle Algorithmen abdeckt, verschiedene Pakete lernt, programmiert).
Neugier / Reasoning (Fähigkeit, Daten besser zu befragen).
Ich denke, 'Neugier / Argumentation' ist die Fähigkeit, die einen von anderen unterscheidet. Wenn Sie zum Beispiel die Ranglisten der Kaggle-Vervollständigungen sehen, haben viele Leute möglicherweise gemeinsame (ähnliche) Algorithmen verwendet. Was den Unterschied ausmacht, ist, wie man die Daten logisch hinterfragt und formuliert.
quelle