Ich stehe kurz vor meinem Abschluss und hatte etwas über maschinelles Lernen gelernt und damit Forschungsprojekte durchgeführt. Ich frage mich über die Best Practices in der Branche, wenn maschinelle Lernaufgaben mit großen Datenmengen (wie 100 GB oder TB) ausgeführt werden. Schätzen Sie, ob andere Datenwissenschaftler ihre Erfahrungen teilen können. Hier sind meine Fragen:
- Offensichtlich dauert das Trainieren sehr großer Datensätze länger (kann Tage oder Wochen dauern). Oft müssen wir verschiedene Modelle (SVM, Neuronales Netzwerk usw.) trainieren, um ein besseres Leistungsmodell zu vergleichen und zu finden. Ich vermute, dass wir in Industrieprojekten die Ergebnisse so schnell wie möglich erzielen wollen, aber die beste Leistung erzielen. Gibt es Tipps zur Verkürzung der Schulungs- und Testzeit? Wenn Sie die Untermenge des Datensatzes empfehlen, würde mich interessieren, wie Sie den Datensatz am besten unterteilen können, um alle oder die meisten Szenarien aus dem Datensatz abzudecken.
- Wir wissen, dass die Durchführung einer Kreuzvalidierung besser ist, da dies die Überanpassung verringern kann. Die Kreuzvalidierung benötigt jedoch auch Zeit zum Trainieren, und das mit Kreuzvalidierung trainierte Modell wird möglicherweise nicht direkt implementiert (aus der Erfahrung von Python Sklearn: Ich muss das Modell nach dem Kreuzvalidierungstest erneut mit dem Datensatz trainieren, damit es implementiert wird). Führen Sie normalerweise eine Kreuzvalidierung in Ihren Big-Data-Projekten durch oder kommen Sie mit der Aufteilung der Zugtests zurecht?
Schätzen Sie das Feedback.
Die Frage ist, wie viele Daten benötigt werden, um Ihr Modell zu sättigen? Um dies festzustellen, können Sie Lernkurven mit unterschiedlichen Datenmengen zeichnen und die Größe möglicherweise um einen konstanten Faktor vergrößern / verkleinern. Wenn eine Schulung aller Daten nicht möglich ist, kann Ihnen die Lernkurve dabei helfen, einen informierten Kompromiss einzugehen.
Die Modellsättigung spielt auch bei der Kreuzvalidierung eine Rolle. Wenn Sie sich nicht der Sättigung nähern, erhalten Sie durch die Verwendung einer kleinen Anzahl von Falten pessimistische Leistungsdaten, da Sie Ihr Modell mit weniger Daten trainieren, als es verwenden kann.
Schließlich und umgekehrt können Sie ein komplexeres Modell verwenden, anstatt die Größe der Daten an das Modell anzupassen.
Willkommen bei DataScience.SE.
quelle