Wie wenige Trainingsbeispiele sind zu wenig, wenn ein neuronales Netzwerk trainiert wird?

14

Ich bin ein Anfänger, der versucht, mein erstes Projekt zusammenzustellen. Ich hatte ein Songklassifizierungsprojekt im Sinn, aber da ich manuell beschriften würde, könnte ich nur 1000 Songs oder 60 Stunden Musik vernünftigerweise zusammenstellen.

Ich würde mit mehreren Klassen klassifizieren, daher ist es möglich, dass eine Klasse nur 50-100 Songs im Trainingsset hat - das scheint zu wenig! Gibt es eine allgemeine Faustregel dafür, wie viele Daten benötigt werden, um ein neuronales Netzwerk zu trainieren, damit es funktioniert?

Edit: Ich habe überlegt, einen Vanille-LSTM zu verwenden. Die Eingabe-Features haben die Dimension 39 und die Ausgabedimension 6. Mein erster Versuch für die Dimension für ausgeblendete Layer ist 100.

Arrey
quelle
2
Dies ist nicht wirklich zu verantworten, da nicht alle Aufgaben einfach sind und verschiedene Netzwerkarchitekturen und Hyperparameter-Auswahlen verschiedene Modelle auf unterschiedliche Weise verbessern / schädigen.
Sycorax sagt Reinstate Monica
Sie müssen mindestens Ihre Netzwerkstruktur und die Anzahl der zu trainierenden Links angeben.
gung - Wiedereinsetzung von Monica

Antworten:

16

Es hängt wirklich von Ihrer Datenmenge und der Netzwerkarchitektur ab. Als Faustregel habe ich gelesen (2), dass ein neuronales Netzwerk nach einigen Tausend Stichproben pro Klasse eine sehr gute Leistung erbringen sollte.

In der Praxis versuchen die Leute zu sehen. Es ist nicht selten, dass Studien mit einem Trainingssatz von weniger als 1000 Stichproben gute Ergebnisse zeigen.


Eine gute Möglichkeit, grob einzuschätzen, inwieweit es nützlich sein könnte, mehr Trainingsmuster zu haben, besteht darin, die Leistung des neuronalen Netzes in Abhängigkeit von der Größe des Trainingssatzes darzustellen, z. B. aus (1):

Bildbeschreibung hier eingeben


Franck Dernoncourt
quelle