Ich mache eine Bildklassifizierung mit maschinellem Lernen.
Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline.
Welches ist die richtige Methode zur Datenerweiterung?
Teilen Sie die Daten zunächst in Trainings- und Validierungssätze auf, und erweitern Sie sie dann sowohl für Trainings- als auch für Validierungssätze.
Teilen Sie die Daten zunächst in Trainings- und Validierungssätze auf, und erweitern Sie sie dann nur für den Trainingssatz.
Führen Sie zuerst eine Datenerweiterung für die Daten durch und teilen Sie die Daten dann in einen Trainings- und Validierungssatz auf.
Antworten:
Teilen Sie die Daten zuerst in Trainings- und Validierungssätze auf, und erweitern Sie sie dann auf dem Trainingssatz.
Sie verwenden Ihren Validierungssatz, um abzuschätzen, wie Ihre Methode mit Daten aus der realen Welt funktioniert. Daher sollte sie nur Daten aus der realen Welt enthalten. Das Hinzufügen erweiterter Daten verbessert die Genauigkeit der Validierung nicht. Es sagt bestenfalls etwas darüber aus, wie gut Ihre Methode auf die Datenerweiterung reagiert und im schlimmsten Fall die Validierungsergebnisse und die Interpretierbarkeit beeinträchtigt.
quelle
Machen Sie niemals 3, da sonst Leckagen auftreten können. Nehmen wir zum Beispiel an, die Vergrößerung ist eine Verschiebung um 1 Pixel nach links. Wenn die Aufteilung nicht augmentationsbewusst ist, erhalten Sie möglicherweise sehr ähnliche Datenmuster sowohl im Zug als auch in der Validierung.
quelle
Datenerweiterung bedeutet, externe Daten / Informationen zu den vorhandenen Daten hinzuzufügen, die analysiert werden.
Da die gesamten erweiterten Daten für maschinelles Lernen verwendet werden, ist der folgende Prozess besser geeignet:
quelle