Ich bin mit grundlegenden Algorithmen für die Gradientenabsenkung zum Trainieren neuronaler Netze vertraut. Ich habe die Zeitung gelesen, in der Adam vorgeschlagen wird: ADAM: EINE METHODE ZUR STOCHASTISCHEN OPTIMIERUNG . Obwohl ich (zumindest) definitiv einige Einsichten habe , scheint mir das...