Als ich Mini Batch Gradient Decent implementiert habe, habe ich nur die Gradienten aller Beispiele im Trainingsbatch gemittelt. Allerdings ist mir aufgefallen, dass jetzt die optimale Lernrate deutlich höher ist als bei anständigen Online-Gefällen. Meiner Intuition nach ist dies so, weil der gemittelte Gradient weniger verrauscht ist und somit schneller verfolgt werden könnte. Vielleicht ist es also auch sinnvoll, nur die Gradienten einer Charge zusammenzufassen. Die Werte können ohnehin positiv und negativ sein.
Ich weiß, dass dies nur ein konstanter Faktor ist, der anhand der Lernrate ausgeglichen werden kann. Ich frage mich jedoch, auf welche Definition sich die Wissenschaftler geeinigt haben, damit ich Ergebnisse aus neuronalen Netzwerkpapieren reproduzieren kann.
Dividiert man typischerweise die summierten Gradienten einer Charge durch die Chargengröße?