Wie wichtig ist Domänenwissen in unserem Beruf?

8

oder: Schränkt die Auswahl einer Domain bei der Eingabe eines Jobs Ihre zukünftigen Optionen für Domains und damit Jobs ein?

Um diese Frage so weit wie möglich anwendbar zu machen ...

  • Beruf bezieht sich auf alle Arten von Datenanalysten, von Statistikern über Programmierer von Maschinenlernern bis hin zu Data Minern.
  • Stellen Sie sich vor, Sie wurden gebeten, einem Publikum mit Studenten und Fachleuten verschiedener Altersklassen einen Rat zu geben

Vielleicht ein Ausgangspunkt:

Die Wettbewerbe auf Kaggle haben gezeigt, dass Außenstehende die von Mitarbeitern des Unternehmens entwickelten Modelle übertreffen können (siehe z . B. hier ). Andererseits hat mich meine (begrenzte) Berufserfahrung zu dem Schluss gebracht, dass das Verständnis, wie und wo die Daten generiert wurden, unbedingt erforderlich ist, um eine abstrakte Umgebung zu schaffen, in der so etwas wie ein Kaggle-Wettbewerb stattfinden kann. Darüber hinaus fällt es mir ohne Domänenkenntnisse schwer, die Ergebnisse anderen Ebenen / Abteilungen zu melden. Einige assoziieren die letzte Fähigkeit als Schlüssel zum "neuen" Beruf "Data Science" (siehe zB hier oder hier ).

steffen
quelle
Frage wurde bereits markiert, um es cw zu machen.
steffen
1
Wrt. zum Kaggle-Beispiel: 1. Der "interne Benchmark" (der die Grundlage für die "340% Outperforms" zu sein scheint) sagt nicht, dass es das beste Modell ist, das Allstate hat. Andere Wettbewerbe verwenden relativ einfache und grundlegende Modelle für das Benchmarking, was auch hier der Fall sein kann. 2. Keine Domänenkenntnisse: Vergessen Sie nicht, wie viel Domänen- und Datenanalysewissen bei der Erstellung des Datensatzes anfällt. Und: Ich kenne den Beruf / die Bewerbungskompetenz des Gewinners nicht.
cbeleites unglücklich mit SX

Antworten:

7

Ich mache eine Analogie: Das Lösen statistischer Probleme ohne Kontext ist wie Boxen mit verbundenen Augen. Sie könnten Ihren Gegner ausschalten, aber Sie könnten Ihre Hand auf den Ringpfosten schlagen.

Ich arbeite hauptsächlich mit medizinischen und sozialwissenschaftlichen Forschern. Dort scheint das Gefühl weit verbreitet zu sein, dass das richtige Modell für die Forschung ist

1) Sie kommen mit einer Idee, sammeln Daten, darüber zu schreiben und dann 2) Sie geben es uns zu „tun die Statistik“.

Daher stimme ich zu, dass wir die Probleme verstehen müssen. Natürlich brauchen wir kein so umfassendes Verständnis der Forschung wie der Praktiker. Deshalb kann ich (und viele andere Datenleute) mit Menschen in verschiedenen Berufen arbeiten. Aber je weniger wir über ein Thema wissen, desto mehr müssen wir mit dem Fachmann interagieren, um sicherzustellen, dass die Ergebnisse sinnvoll sind.

Eines der vielen Dinge, die ich an meiner Arbeit mag, ist, dass ich ein bisschen über viele verschiedene Themen lernen kann.

Peter Flom
quelle
1
Sehr schöne Analogie. Ein bisschen Statistik im DoE (Randomisierung, Stichprobengrößenplanung) schadet zwar auch nicht ... Und der Interaktionsbedarf kann explodieren, wenn die Überschneidung von Wissen (und auch Terminologie) zu gering ist.
cbeleites unglücklich mit SX
5

Wie wichtig ist Domänenwissen in unserem Beruf?

  • Wichtig genug, um den domänenorientierten Datenanalysen eindeutige Namen zu geben (z. B. Metriken: Biometrie, Psychometrie, Chemometrie, ...)

  • Die Mischung aus Domänenwissen und statistischem Wissen ist in äußerst wichtig

    • Versuchsplanung, zB praktisch ./. statistische Machbarkeit, domänenspezifische Normen, Stichprobengrößenplanung
    • Leitdatenanalyse (Welche Art von Transformationen oder Vorverarbeitung sind physikalisch / biologisch / chemisch sinnvoll? Welche Korrekturen der Rohdaten sind erforderlich?, Kriterien für Datenqualität, Heuristik)
    • Überprüfen, ob die Ergebnisse möglicherweise aussagekräftig / korrekt sind
    • Interpretation der Ergebnisse
      Hier ist ein Beispiel für eine domänenspezifische Interpretation eines Klassifikators , die nur möglich war, weil sowohl datenanalytisches als auch spektroskopisches Wissen zusammen vorhanden waren (Abschnitt "Beschreibende LDA und spektroskopische Interpretation"). Versuchen Sie sich vorzustellen, wie viel Kommunikation zwischen einem Datenanalysten ohne spektroskopisches Wissen und einem Spektroskopiker ohne Ahnung von LDA erforderlich wäre, um zu einer solchen Interpretation zu gelangen.
    • Im Zusammenhang mit der (mangelnden) Reproduzierbarkeit veröffentlichter Ergebnisse bestehen Bedenken hinsichtlich der durchgeführten Forschung, als ob keine weiteren Kenntnisse über das Gebiet / Problem / die Daten vorhanden wären , siehe z . B. E. R: Dougherty: Biomarker-Entwicklung: Klugheit, Risiko und Reproduzierbarkeit, BioEssays, 2012, 34, 277-279.
      Beck-Bornholt & Dubben würden wahrscheinlich argumentieren, dass die Einbeziehung von mehr Domänenwissen die Prävalenz (vorherige Wahrscheinlichkeit) guter wissenschaftlicher Ideen erhöht.
    • Der Satz ohne freies Mittagessen weist in die gleiche Richtung.

    (Ich bin ein Chemiker, der auf Chemometrie und Spektroskopie spezialisiert ist und sowohl Messungen als auch Datenanalysen durchführt.)

Schränkt die Auswahl einer Domain bei der Eingabe eines Jobs Ihre zukünftigen Optionen für Domains und damit Jobs ein?

Vielleicht, aber gleichzeitig können Sie mehr Fachwissen in diesem Bereich beanspruchen und sich folglich für die spezialisierten Jobs bewerben (und meine Erfahrung ist, dass wir Chemometriker eine begehrte Spezies sind).

Darüber hinaus zeigen Sie, dass Sie in neuen Domänen arbeiten können.

cbeleites
quelle