Als «sgd» getaggte Fragen

Der stochastische Gradientenabstieg (SGD) ist eine Variante des Gradientenabstiegs, bei der nur eine kleine Teilmenge ("Mini-Batch") von Trainingsbeispielen verwendet wird, um den Gradienten bei jeder Iteration zu berechnen.

101
Batch-Gefälle versus stochastisches Gefälle

Angenommen, wir haben eine Trainingsmenge ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) für i = 1 , ... , mi=1,…,mi = 1, \dots, m . Angenommen, wir führen eine Art von überwachtem Lernalgorithmus für den Trainingssatz aus. Hypothesen werden dargestellt als hθ( x( i )) = θ0+ θ1X( i ) 1+ ⋯ + θnX( i...

14
Wie kann es in einem Sattelpunkt gefangen werden?

Ich bin derzeit ein bisschen verwirrt darüber, wie der Mini-Batch-Gefälle-Abstieg in einem Sattelpunkt gefangen werden kann. Die Lösung könnte zu trivial sein, als dass ich sie nicht verstehe. Sie erhalten in jeder Epoche eine neue Stichprobe und es wird ein neuer Fehler basierend auf einer...

11
RMSProp und Adam gegen SGD

Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration...