Ich stehe kurz vor dem Beginn eines Jobs, bei dem ich mit großen Datenmengen arbeiten werde und von dem erwartet wird, dass er Trends usw. findet. Ich habe viele Ressourcen gefunden, um ML und andere harte Fähigkeiten zu lernen, und fühle mich (halb) ) kompetent in diesem Sinne.
Ich bin daran interessiert zu wissen, ob es bestimmte Soft Skills gibt, die als Datenwissenschaftler hilfreich sind. Was wünschst du dir von Anfang an?
Während Kaggle beim Lernen sehr nützlich ist, bietet es auch klare Ziele. Wie gehen Sie damit um, einen Datensatz zu erhalten, aber kein klares Ziel?
Lassen Sie mich wissen, wenn dies zu weit gefasst ist, kann ich mir spezifischere Fragen vorstellen.
Antworten:
Ich denke, im Bereich Data Science sind viele wichtige Soft Skills zu berücksichtigen.
Hier sind einige davon:
Zu Ihrer zweiten Frage:
Das Ziel muss entweder explizit vom Product Owner erhalten oder von einem weniger mathematischen Ziel abgeleitet werden. Ein Beispiel könnte sein, wo Sie Zugankünfte anhand einiger Funktionen vorhersagen müssen. Sie möchten, dass das Modell innerhalb eines 10-minütigen Fehlerbereichs so oft wie möglich vorhersagt. Dies ist relativ explizit.
Manchmal ist es weniger klar, sie könnten sagen, wir brauchen es so genau wie möglich. Dann müssen Sie entscheiden, was optimiert werden soll. In einigen Fällen wird nur die MSE minimiert, in anderen Fällen sind andere Dinge für Ihren Fall möglicherweise sinnvoller. Normalerweise wird dies aus dem impliziten Ziel und etwas deutlich, das Sie mit mehr Erfahrung verbessern können. Sowohl implizite als auch explizite Ziele ergeben sich aus einer klaren Kommunikation mit dem Product Owner.
quelle
"Wie gehen Sie damit um, einen Datensatz zu erhalten, aber kein klares Ziel?"
Dies wird üblich sein.
Verstehen Sie neben den obigen Ratschlägen, dass es wichtig ist, die Ziele des Unternehmens, in dem Sie tätig sind, und Ihres unmittelbaren Kunden zu verstehen. Häufig müssen Sie das spezifische Problem verstehen, durch das sie besser auf Daten zurückgreifen als sie. Es ist sehr häufig, dass Ihrem internen oder externen Kunden Daten und ein unklares Ziel präsentiert werden. In der Regel ist es Ihre Aufgabe, ein Ziel zu erreichen, das mit den Daten erreicht werden kann und das eigentliche Geschäftsproblem des Kunden löst. Es ist ein gewisses Maß an Querdenken erforderlich, damit das Datenergebnis und die Geschäftslösung übereinstimmen.
Ich würde das oben Gesagte wie folgt zusammenfassen: "Die Definition des Ziels ist zu wichtig (und möglicherweise zu schwierig!), Um dem Kunden (allein) überlassen zu werden."
Im Kontext des maschinellen Lernens ist CRISP-DM eine Methode, die versucht, dieses Problem durch Iteration durch eine Schleife zu lösen, damit zusätzliches Datenverständnis in der Diskussion mit dem Client verwendet werden kann, um das ursprüngliche Problem besser zu verstehen. So können sie beispielsweise ein schlecht definiertes Ziel angeben. Eine zweite Diskussion, nachdem Sie eine EDA durchgeführt haben, wird es ein wenig schärfen. Wenn Sie später ein Modell erstellen, das gut funktioniert, aber nicht ganz das richtige Ziel erreicht, kommen Sie dem eigentlichen Geschäftsziel wieder näher.
Mit anderen Worten, lassen Sie sich nicht zu sehr von der Unschärfe der Aufgabe stören. Erwarten Sie ein Vakuum und füllen Sie es zu Ihrem Vorteil.
Es ist eine leichte Seitwärtsverschiebung, aber die Six-Sigma-Methode versucht, dieses Problem in einem anderen Kontext mit dem DMAIC-System zu lösen (das 'D' steht für 'Definieren', ausgedrückt als 'Stimme des Kunden') Wahrscheinlich können einige Tipps in Ressourcen für den Six-Sigma-Kontext gesammelt werden (z. B. Übungen, die Sie mit einem Kunden durchführen können, um ihm zu helfen, Ihre Wünsche klarer auszudrücken).
quelle