Beim Training neuronaler Netze ist ein Hyperparameter die Größe eines Minibatches. Übliche Auswahlmöglichkeiten sind 32, 64 und 128 Elemente pro Minibatch.
Gibt es irgendwelche Regeln / Richtlinien, wie groß eine Mini-Charge sein sollte? Gibt es Veröffentlichungen, in denen die Auswirkungen auf das Training untersucht werden?
neural-network
deep-learning
convnet
optimization
Martin Thoma
quelle
quelle
Antworten:
In On Large-Batch-Training für vertiefendes Lernen: Generalisierungslücke und scharfe Minima gibt es ein paar interessante Aussagen:
Aus meiner Masterarbeit : Daher beeinflusst die Wahl der Mini-Batch-Größe:
Es ist wichtig zu beachten , hyper-Parameter Wechselwirkungen : Chargengröße mit anderen Hyper-Parametern in Wechselwirkung treten kann, insbesondere Rate zu lernen. In einigen Experimenten kann es aufgrund dieser Wechselwirkung schwierig sein, den Einfluss der Chargengröße allein auf die Modellqualität zu bestimmen. Eine weitere starke Wechselwirkung ist das frühzeitige Anhalten zur Regularisierung.
Siehe auch
quelle