Fähigkeiten, die bei maschinellen Lernern schwer zu finden sind?

71

Es scheint, dass Data Mining und maschinelles Lernen so populär wurden, dass mittlerweile fast jeder CS-Student über Klassifikatoren, Clustering, statistische NLPs usw. Bescheid weiß.

Meine Frage lautet: Welche Fähigkeiten könnte ein Data Miner erlernen, die ihn von den anderen unterscheiden? Ihn zu einer Person zu machen, die nicht so leicht zu finden ist wie er.

Jack Twain
quelle
6
Während es eine Antwort auf eine andere Frage ist, können einige der Punkte in einer alten Antwort von mir hier übernommen werden. Assad macht einige ähnliche Bemerkungen in seiner sehr netten Antwort unten.
Kardinal

Antworten:

62

Ich habe mehrmals gesehen, dass Entwickler ML-Techniken verwenden. Dies ist das übliche Muster:

  1. Bibliothek mit ausgefallenem Namen herunterladen;
  2. Verbringen Sie 10 Minuten damit, zu lesen, wie man es benutzt (Überspringen von Statistiken, Mathe usw.).
  3. füttere es mit Daten (keine Vorverarbeitung);
  4. Messen Sie die Leistung (z. B. die Genauigkeit, auch wenn die Klassen völlig unausgewogen sind) und sagen Sie allen, wie großartig sie mit einer Genauigkeit von 99% ist.
  5. Bereitstellung in der Produktion mit beeindruckenden Fehlerergebnissen;
  6. finde jemanden, der versteht, was los ist, um ihnen zu helfen, weil die Bedienungsanleitung überhaupt keinen Sinn ergibt.

Die einfache Antwort ist, dass (die meisten) Software-Ingenieure in Statistik und Mathematik sehr schwach sind . Dies ist der Vorteil eines jeden, der mit ihnen konkurrieren möchte. Natürlich sind die Leute außerhalb ihrer Komfortzone, wenn sie Produktionscode schreiben müssen. Die Art von Rolle, die wirklich selten wird, ist die von Data Scientist. Es ist jemand, der Code schreiben kann, um auf die enorme Datenmenge zuzugreifen, damit zu spielen und den Wert in ihnen zu finden.

iliasfl
quelle
14
LOL bei "sagen Sie allen, wie toll es ist mit seiner Genauigkeit von 99%"
Jack Twain
2
+1 Ich bin mit allem einverstanden. "[...] Data Scientist. Es ist jemand, der Code schreiben kann, um auf die enorme Menge an Daten zuzugreifen und mit ihnen zu spielen und Wert in ihnen zu finden." Was für mich nahelegt, dass es natürlich selten bleiben sollte, da es für die meisten Sterblichen unmöglich erscheint, die komplexen statistischen und grundlegenden Probleme anzugehen und etwas in einen Produktionscode zu verwandeln. Es erklärt auch, warum wir Herzchirurgen, Anästhesisten, Neurologen, Krankenschwestern, Krankenhausverwalter usw. haben. Oder Zivil-, Luftfahrt-, Bergbau-, Chemie-, Maschinenbauingenieure usw.
Thomas Speidel
2
Für mich ist dies nicht wirklich eine Beschreibung dessen, was jemand braucht, um ein herausragender ML-Kandidat zu sein - eher eine ML-Bash. Klingt so, als würdest du jemanden beschreiben, der zu sehr darauf bedacht ist, "die Antwort" zu bekommen, bevor er überhaupt weiß, was die Frage ist. Grundsätzlich ist Ihre "typische ML" -Person eine Person mit schlechten Planungsfähigkeiten und eine Person, die nicht bespricht, was sie mit dem "Kunden" vor dem Pflügen vorhat und die "Antwort" zurückgibt. Gute Mathematik / Statistiken tragen nicht dazu bei, sondern erfordern gute Kommunikationsfähigkeiten.
Wahrscheinlichkeitsrechnung
61

Worum geht es?

Das Wissen über Techniken ist mit dem Kennen der Tiere in einem Zoo vergleichbar - Sie können sie benennen, ihre Eigenschaften beschreiben und sie möglicherweise in freier Wildbahn identifizieren.

Zu verstehen, wann sie zu verwenden sind, mathematische Modelle innerhalb eines Anwendungsbereichs zu formulieren, zu erstellen, zu testen und zu implementieren, während die Fallstricke vermieden werden - dies sind meiner Meinung nach die Fähigkeiten, die sich auszeichnen.

Der Schwerpunkt sollte auf der Wissenschaft liegen und einen systematischen wissenschaftlichen Ansatz für geschäftliche, industrielle und kommerzielle Probleme verfolgen. Dies erfordert jedoch Fähigkeiten, die umfassender sind als Data Mining und maschinelles Lernen, wie Robin Bloor in "A Data Science Rant" überzeugend argumentiert .

Was kann man also tun?

Anwendungsbereiche : Informieren Sie sich über verschiedene Anwendungsbereiche, die Ihrem Interesse oder dem Ihres Arbeitgebers entsprechen. Der Bereich ist oft weniger wichtig, als zu verstehen, wie das Modell erstellt wurde und wie es verwendet wurde, um diesem Bereich einen Mehrwert zu verleihen. Modelle, die in einem Bereich erfolgreich sind, können häufig transplantiert und auf verschiedene Bereiche angewendet werden, die auf ähnliche Weise funktionieren.

Wettbewerbe : Probieren Sie die Website des Data Mining-Wettbewerbs Kaggle aus und schließen Sie sich vorzugsweise einem Team von anderen an. (Kaggle: Plattform für Vorhersagemodellierungswettbewerbe. Unternehmen, Regierungen und Forscher präsentieren Datensätze und Probleme, und die weltbesten Datenwissenschaftler konkurrieren um die besten Lösungen.)

Grundlagen : Es gibt vier: (1) solide Grundlagen in der Statistik, (2) einigermaßen gute Programmierkenntnisse, (3) Verständnis für die Strukturierung komplexer Datenabfragen, (4) Erstellen von Datenmodellen. Wenn jemand schwach ist, ist dies ein wichtiger Ausgangspunkt.


Ein paar Zitate dazu:

„Ich habe sehr früh den Unterschied zwischen dem Namen von etwas und etwas gelernt. Sie können den Namen eines Vogels in allen Sprachen der Welt kennen, aber wenn Sie fertig sind, wissen Sie absolut nichts über den Vogel ... Schauen wir uns den Vogel an und sehen, was er tut - das ist es Was zählt. '' - Richard Feynman, "The Making of a Scientist", S. 14 in Was interessiert Sie, was andere Leute denken, 1988

Merken Sie sich:

`` Die Kombination der Fähigkeiten, die für die Durchführung dieser Business-Science- Projekte (Data-Science-Projekte) erforderlich sind, befindet sich selten in einer Person. Jemand hätte in der Tat umfassende Kenntnisse in den drei Bereichen (i) der Geschäftstätigkeit, (ii) der Verwendung von Statistiken und (iii) der Verwaltung von Daten und Datenflüssen erlangen können. In diesem Fall könnte er oder sie tatsächlich behaupten, ein Wirtschaftswissenschaftler (auch bekannt als „Datenwissenschaftler“) in einem bestimmten Sektor zu sein. Aber solche Individuen sind fast so selten wie die Zähne von Hühnern. “- Robin Bloor, A Data Science Rant , August 2013, Inside Analysis

Und schlussendlich:

"Die Karte ist nicht das Territorium." - Alfred Korzybski, 1933, Science & Sanity.

Die meisten realen, angewandten Probleme sind nicht nur über die Karte zugänglich. Um mit der mathematischen Modellierung praktische Dinge zu tun, muss man bereit sein, sich mit Details, Feinheiten und Ausnahmen abzufinden. Nichts kann es ersetzen, das Gebiet aus erster Hand zu kennen.


Assad Ebrahim
quelle
6
+1. Standardlösungen eignen sich nur selten für ein bestimmtes Geschäftsproblem Ihres Unternehmens. Sie müssen sich anpassen und verbessern, und dafür müssen Sie verstehen, was sich unter der Haube befindet.
Zhubarb
4
@Zhubarb - ich denke das stimmt nur teilweise. "Out-of-the-Box" -Lösungen können nicht immer und in der Regel auch nicht zum Erledigen einer Aufgabe von Anfang bis Ende eingesetzt werden. Der Trick ist zu wissen, wann Sie mit "Out-of-the-Box-Lösungen" davonkommen können und wann ein maßgeschneiderter Ansatz erforderlich ist.
Wahrscheinlichkeitslogik
41

Ich stimme mit allem überein, was gesagt wurde. Was mich auszeichnet sind:

  1. Wie wenige "Experten" des maschinellen Lernens interessieren sich wirklich für das Thema, für das sie ML anwenden möchten
  2. Wie wenige wirklich Vorhersagegenauigkeit und korrekte Bewertungsregeln verstehen
  3. Wie wenige verstehen Validierungsprinzipien
  4. Wie wenige wissen, wann eine Black Box im Vergleich zu einem herkömmlichen Regressionsmodell zu verwenden ist
  5. Wie es scheint, hat keiner der "Experten" jemals Bayes optimale Entscheidungs- oder Verlust- / Nutzen- / Kostenfunktionen untersucht.
Frank Harrell
quelle
3
Würde es Ihnen etwas ausmachen, auf 4 näher einzugehen? Ich verstehe nicht ganz, was du meinst
17
Ich hätte gedacht, dass dieser Artikel am einfachsten zu verstehen ist. Hier ist ein Beispiel: Nehmen wir in einem bestimmten Studienbereich an, dass wir bereits die Erfahrung gemacht haben, dass die meisten Variablen additiv arbeiten. Das Anpassen eines additiven Regressionsmodells, das keine linear arbeitenden Prädiktoren voraussetzt (z. B. unter Verwendung von Regressionssplines), liefert ein interpretierbares und nützliches statistisches Modell. Die Verwendung von svm oder zufälligen Gesamtstrukturen ist dagegen sehr schwer zu interpretieren, hat keine trennbaren Effekte und lässt sich nicht besser vorhersagen als das nichtlineare additive Modell.
Frank Harrell
7
Ja, wahrlich, die Oberflächlichkeit des Gegenstands. Nicht einmal in der ML-Welt sehe ich oft die Tendenz, Rohdaten in eine magische Kiste zu schaufeln und wunderbare Einblicke zu erhalten. Was diese Leute suchen, ist ein künstliches Gehirn.
DarenW
3
+1 für Punkt 1 besonders. Der Beweis für mangelndes Interesse an der Domain ist, dass das Anwenden von Domainwissen das Wissen erfordert, wie man die Black Box öffnet und modifiziert. Mit Black Box meine ich, dass für einen Großteil der Einsteiger-ML sogar grundlegende statistische Modellierungstechniken in dieser Black Box enthalten sind. Wenn das Interesse / die Fähigkeit nicht vorhanden ist, ist es viel schwieriger, Domänenwissen anzuwenden.
Meadowlark Bradsher
7
@DarenW: Die Tendenz spiegelt sich auch im Namen wider: "Maschinelles Lernen" mit der Konnotation, dass die Maschine ... von selbst ... nur Rohdaten schaufelt. Vergleichen Sie den weniger glamourösen Namen (aber genauer IMO), den Hastie, Tibshirani et al .: "Statistical Learning" gewählt haben. Unterschiedliche Konnotationen, unterschiedliche Erklärungen, die sich alle auf statistische Prinzipien beziehen.
Assad Ebrahim
11

Hier sind ein paar Dinge, die Sie von der Masse abheben sollen:

  • Verstehen Sie die Anwendungsdomäne (n). Das heißt, das Geschäftsumfeld oder ein anderer Kontext.
  • Verstehe das große Ganze. Dies ist sehr wichtig! Menschen, die maschinelles Lernen studieren, verlieren sich oft im Detail. Denken Sie an das Gesamtbild, in das Ihre ML-Modelle passen. Oft ist der ML-Teil nur ein kleines Segment eines viel größeren Systems. Verstehe das ganze System.
  • Studieren Sie die Nützlichkeits- und Entscheidungstheorie und die Bayes'sche Folgerung, nicht nur das, was jetzt als "die üblichen" ML-Modelle angesehen wird. Die bayesianische Folgerung ist nur ein Weg, um den Begriff der Zusammenführung aller kontextbezogenen Informationen zu einem Problem zu formalisieren. In der Gebrauchs- und Entscheidungstheorie geht es darum, Werte ins Bild zu bringen.

Die Gesamtbotschaft, die für alle drei Punkte gilt: Schauen Sie sich das große Ganze an, verlieren Sie sich nicht im Detail.

Robert Dodier
quelle
4

Die Fähigkeit, die einen Data Miner von anderen unterscheidet, ist die Fähigkeit, Modelle für maschinelles Lernen zu interpretieren. Die meisten bauen eine Maschine, melden den Fehler und stoppen dann. Welche mathematischen Beziehungen bestehen zwischen den Merkmalen? Sind die Effekte additiv oder nicht additiv oder beides? Sind einige der Funktionen irrelevant? Wird die Maschine unter der Nullhypothese erwartet, dass die Daten nur Zufallsmuster enthalten? Verallgemeinert sich das Modell auf unabhängige Daten? Was bedeuten diese Muster für das untersuchte Problem? Was sind die Schlussfolgerungen? Was sind die Einsichten? Warum sollte ein Domain-Experte aufgeregt sein? Wird die Maschine dazu führen, dass der Domain-Experte neue Fragen stellt und neue Experimente erstellt? Kann der Data Miner das Modell und seine Auswirkungen effektiv an die Welt kommunizieren?

Jason Moore
quelle
8
+1 Einverstanden - obwohl das, was Sie beschreiben, als Statistik bezeichnet wird.
Thomas Speidel
4

Ich würde dort den Begriff "soft skills" ausdrücken.

  • Erkennen, wer der "Experte" für Methode X ist, und in der Lage sein, sein Wissen zu nutzen (Sie sollten nicht in der Lage oder erwartet sein, alles über alles zu wissen). Die Fähigkeit und Bereitschaft, mit anderen zusammenzuarbeiten.

  • die Fähigkeit, "die reale Welt" mit der in ML verwendeten Mathematik zu übersetzen oder darzustellen.

  • Die Möglichkeit, Ihre Methoden verschiedenen Zielgruppen auf unterschiedliche Weise zu erläutern - mit dem Wissen, wann Sie sich auf Details konzentrieren und wann Sie einen Schritt zurücktreten und den weiteren Kontext betrachten müssen.

  • Systemdenken, in der Lage sein zu sehen, wie sich Ihre Rolle auf andere Geschäftsbereiche auswirkt und wie sich diese Bereiche auf Ihre Arbeit auswirken.

  • Wertschätzung und Verständnis für Unsicherheit und strukturierte Methoden, um damit umzugehen. In der Lage zu sein, klar zu sagen, was Ihre Annahmen sind.

Wahrscheinlichkeitslogik
quelle
4

Gut verallgemeinern können

Dies ist die Essenz eines guten Modells. Und es ist die Essenz dessen, was die besten Praktiker der Kunst des maschinellen Lernens von der Masse abhebt.

Verstehen, dass das Ziel darin besteht, die Leistung für unsichtbare Daten zu optimieren und den Trainingsverlust nicht zu minimieren. Wissen, wie man sowohl Über- als auch Unteranpassung vermeidet. Überlegen Sie sich Modelle, die nicht zu komplex und dennoch nicht zu einfach sind, um das Problem zu beschreiben. Extrahieren des Kerns eines Trainingssatzes statt des maximal möglichen.

Es ist überraschend, wie oft selbst erfahrene Praktiker des maschinellen Lernens diesen Grundsatz nicht befolgen. Ein Grund dafür ist, dass der Mensch zwei gewaltige Größenunterschiede zwischen Theorie und Praxis nicht einschätzen kann :

  • Wie viel größer ist der Platz aller möglichen Beispiele im Vergleich zu den vorliegenden Trainingsdaten, selbst wenn die Trainingsdaten sehr groß sind.
  • Wie viel größer ist der gesamte "Hypothesenraum" : Anzahl der möglichen Modelle für ein Problem im Vergleich zum praktischen "Lösungsraum": alles, was Sie sich vorstellen können und was Ihre Software / Tools darstellen können.

Das 2. ist besonders unverständlich, da es selbst für das einfachste Problem mit Eingaben und einem binären Ergebnis mögliche Eingabebeispiele und eine exponentiell größere Anzahl von 2 ^ möglichen Modellen gibt.2 N 2 NN2N2N

Es ist auch das, was die meisten der obigen Antworten auf spezifischere und konkretere Weise sagten. gut zu verallgemeinern ist nur der kürzeste Weg, den ich mir vorstellen kann, um es auszudrücken.

Arielf
quelle
2

Ich sehe, dass es beim Umgang mit maschinellem Lernen in der Praxis zwei Teile gibt

  1. Engineering (das alle Algorithmen abdeckt, verschiedene Pakete lernt, programmiert).

  2. Neugier / Reasoning (Fähigkeit, Daten besser zu befragen).

Ich denke, 'Neugier / Argumentation' ist die Fähigkeit, die einen von anderen unterscheidet. Wenn Sie zum Beispiel die Ranglisten der Kaggle-Vervollständigungen sehen, haben viele Leute möglicherweise gemeinsame (ähnliche) Algorithmen verwendet. Was den Unterschied ausmacht, ist, wie man die Daten logisch hinterfragt und formuliert.

Chitrasen
quelle