In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet.
In diesem Beitrag heißt es beispielsweise:
Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir kleine Schritte in Richtung der Minima machen, indem wir den Gradienten der Kostenfunktion nehmen.
Sagen Sie bitte, was bedeutet "Verfälschung" in diesem Zusammenhang? Der Autor geht noch weiter, indem er den Vanille-Gradientenabstieg dem Gradientenabstieg mit dem Impuls gegenüberstellt. In diesem Fall ist Vanille-Gradientenabstieg ein anderes Wort für Gradientenabstieg.
In einem anderen Beitrag heißt es:
Vanille-Gradientenabstieg, auch bekannt als Batch-Gradientenabstieg, ...
Leider habe ich auch noch nie von einem Batch-Gradienten-Abstieg gehört. Oh Junge.
Kann jemand klarstellen, was "Vanille" bedeutet und ob es eine festere mathematische Definition gibt?
quelle
Antworten:
Vanille bedeutet Standard-, übliche oder unveränderte Version von etwas. Vanille-Gradientenabstieg bedeutet den grundlegenden Gradientenabstiegsalgorithmus ohne Schnickschnack.
Es gibt viele Varianten des Gefälles. Beim üblichen Gradientenabstieg (auch als Batch-Gradientenabstieg oder Vanille-Gradientenabstieg bekannt) wird der Gradient als Durchschnitt des Gradienten jedes Datenpunkts berechnet.
Bei stochastischem Gradientenabstieg mit einer Chargengröße von eins können wir den Gradienten als schätzen
quelle