Tipps für einen neuen Datenwissenschaftler

8

Ich stehe kurz vor dem Beginn eines Jobs, bei dem ich mit großen Datenmengen arbeiten werde und von dem erwartet wird, dass er Trends usw. findet. Ich habe viele Ressourcen gefunden, um ML und andere harte Fähigkeiten zu lernen, und fühle mich (halb) ) kompetent in diesem Sinne.

Ich bin daran interessiert zu wissen, ob es bestimmte Soft Skills gibt, die als Datenwissenschaftler hilfreich sind. Was wünschst du dir von Anfang an?

Während Kaggle beim Lernen sehr nützlich ist, bietet es auch klare Ziele. Wie gehen Sie damit um, einen Datensatz zu erhalten, aber kein klares Ziel?

Lassen Sie mich wissen, wenn dies zu weit gefasst ist, kann ich mir spezifischere Fragen vorstellen.

Hobbes
quelle
3
Tipp 1: Streicheln Sie niemals einen brennenden Hund
Brandon Loudermilk
1
Wenn es Ihnen nichts ausmacht, teilen Sie uns bitte die Branche mit, in der Sie tätig sind. Die Mathematik und die Konzepte bleiben gleich, jedoch variieren die Struktur der Daten und auch die Art und Weise, wie man sich ihnen nähert. Die folgenden Ratschläge sind sehr treffend und wenn sie geübt werden, werden sie eine große Hilfe sein. Ich hoffe, wenn ich die Branche kenne, kann ich möglicherweise etwas mitteilen, das Sie direkt in Beziehung setzen können.
Drj
Ich hoffe, wer auch immer Sie für diesen Job interviewt hat, liest dies jetzt und denkt: "Warum haben wir diese Fragen beim Interview nicht gestellt?".
Spacedman
Drj, ich werde teilweise mit Daten aus dem Herstellungsprozess und teilweise mit Kundenfeedbackdaten arbeiten. Es scheint ein breites Spektrum zu sein. Ich komme aus der Wissenschaft, wo die Daten durch meine eigenen Experimente erzeugt wurden und ich hatte sehr klare Ziele.
Hobbes

Antworten:

7

Ich denke, im Bereich Data Science sind viele wichtige Soft Skills zu berücksichtigen.

Hier sind einige davon:

  1. Wenn Sie genau wissen, was das Ziel ist, ist es eine Verschwendung, viel Zeit mit Datenverwirrung, Modellen, Visualisierung und Berichten zu verbringen, wenn nicht alles für das jeweilige Ziel vorgesehen ist. Die Kommunikation mit weniger technischen Mitarbeitern ist eine Fähigkeit für sich.
  2. Iterieren Sie wiederholt mit dem Product Owner. Stellen Sie sicher, dass Sie auf dem richtigen Weg sind.
  3. Wenn die Daten nicht die Geschichte erzählen, von der sie dachten / wollen, dass sie ihnen erzählen, ist dies nicht der Fall. Stellen Sie klar, warum dies geschieht, welche Vorurteile möglicherweise eine Rolle spielen usw. Wenden Sie nicht alle Arten von Filtern an und ändern Sie die Parameter nicht ständig, um die gewünschten Ergebnisse zu erzielen.

Zu Ihrer zweiten Frage:

Das Ziel muss entweder explizit vom Product Owner erhalten oder von einem weniger mathematischen Ziel abgeleitet werden. Ein Beispiel könnte sein, wo Sie Zugankünfte anhand einiger Funktionen vorhersagen müssen. Sie möchten, dass das Modell innerhalb eines 10-minütigen Fehlerbereichs so oft wie möglich vorhersagt. Dies ist relativ explizit.

Manchmal ist es weniger klar, sie könnten sagen, wir brauchen es so genau wie möglich. Dann müssen Sie entscheiden, was optimiert werden soll. In einigen Fällen wird nur die MSE minimiert, in anderen Fällen sind andere Dinge für Ihren Fall möglicherweise sinnvoller. Normalerweise wird dies aus dem impliziten Ziel und etwas deutlich, das Sie mit mehr Erfahrung verbessern können. Sowohl implizite als auch explizite Ziele ergeben sich aus einer klaren Kommunikation mit dem Product Owner.

Jan van der Vegt
quelle
Vielen Dank für den Kommentar. Ich denke, Ihr Rat zur Kommunikation mit weniger technischen Mitarbeitern ist wirklich hilfreich und definitiv etwas, an dem ich arbeiten muss.
Hobbes
Ich habe auch einige Informationen über das Ziel hinzugefügt
Jan van der Vegt
Sehr hilfreich, ich werde dies in Zukunft berücksichtigen. (Ich schätze, ich kann nicht abstimmen, bis ich einen höheren Ruf habe)
Hobbes
5

"Wie gehen Sie damit um, einen Datensatz zu erhalten, aber kein klares Ziel?"

Dies wird üblich sein.

Verstehen Sie neben den obigen Ratschlägen, dass es wichtig ist, die Ziele des Unternehmens, in dem Sie tätig sind, und Ihres unmittelbaren Kunden zu verstehen. Häufig müssen Sie das spezifische Problem verstehen, durch das sie besser auf Daten zurückgreifen als sie. Es ist sehr häufig, dass Ihrem internen oder externen Kunden Daten und ein unklares Ziel präsentiert werden. In der Regel ist es Ihre Aufgabe, ein Ziel zu erreichen, das mit den Daten erreicht werden kann und das eigentliche Geschäftsproblem des Kunden löst. Es ist ein gewisses Maß an Querdenken erforderlich, damit das Datenergebnis und die Geschäftslösung übereinstimmen.

Ich würde das oben Gesagte wie folgt zusammenfassen: "Die Definition des Ziels ist zu wichtig (und möglicherweise zu schwierig!), Um dem Kunden (allein) überlassen zu werden."

Im Kontext des maschinellen Lernens ist CRISP-DM eine Methode, die versucht, dieses Problem durch Iteration durch eine Schleife zu lösen, damit zusätzliches Datenverständnis in der Diskussion mit dem Client verwendet werden kann, um das ursprüngliche Problem besser zu verstehen. So können sie beispielsweise ein schlecht definiertes Ziel angeben. Eine zweite Diskussion, nachdem Sie eine EDA durchgeführt haben, wird es ein wenig schärfen. Wenn Sie später ein Modell erstellen, das gut funktioniert, aber nicht ganz das richtige Ziel erreicht, kommen Sie dem eigentlichen Geschäftsziel wieder näher.

Mit anderen Worten, lassen Sie sich nicht zu sehr von der Unschärfe der Aufgabe stören. Erwarten Sie ein Vakuum und füllen Sie es zu Ihrem Vorteil.

Es ist eine leichte Seitwärtsverschiebung, aber die Six-Sigma-Methode versucht, dieses Problem in einem anderen Kontext mit dem DMAIC-System zu lösen (das 'D' steht für 'Definieren', ausgedrückt als 'Stimme des Kunden') Wahrscheinlich können einige Tipps in Ressourcen für den Six-Sigma-Kontext gesammelt werden (z. B. Übungen, die Sie mit einem Kunden durchführen können, um ihm zu helfen, Ihre Wünsche klarer auszudrücken).

Robert de Graaf
quelle
Danke, das ist tolles Feedback. Mir gefällt besonders, dass die Definition des Ziels zu wichtig (und möglicherweise zu schwierig!) Ist, um dem Kunden (allein) überlassen zu werden. Ich werde mich auf jeden Fall mit CRISP-DM befassen.
Hobbes